阿里发布万相2.6系列模型，国内首个角色扮演功能上线，支持音画同步

发布背景：视频生成进入系统化竞争阶段
2025年12月16日，阿里正式发布新一代通义万相2.6系列模型，并同步上线阿里云百炼与万相官网。该模型面向专业影视制作与图像创作场景进行系统级升级，被业内视为国内视频生成模型迈入“全能力集成”的重要节点。万相2.6不仅扩展了功能边界，也在实际创作流程中显著降低了视频生成门槛。

核心能力：角色扮演成为关键突破点
万相2.6最引人关注的能力，是其对角色扮演功能的正式支持。模型可基于输入视频，学习并复用角色的外观特征与音色信息，实现人物在不同情境下的连续表演。该能力既支持单人视频生成，也可完成多人、人与物共同出镜的复杂场景，填补了国内视频生成模型在“角色一致性”上的长期空白。

功能整合：音画同步与多镜头叙事并行
在功能层面，万相2.6将音画同步、多镜头生成与声音驱动等能力整合进统一体系，形成完整的视频生成链路。模型在画质清晰度、音效匹配度及指令遵循能力上均有明显提升，单次视频生成时长提升至15秒，达到国内同类模型的最高水平。同时新增的分镜控制能力，可将简要提示词自动扩展为多镜头脚本，保证叙事连贯性与关键信息的一致呈现。

技术结构：多模态联合建模成为基础能力
在模型结构设计上，通义万相2.6引入多模态联合建模机制，对参考视频中的视觉与声音信息进行统一学习。模型既可捕捉人物情绪、姿态和多角度视觉变化，也能提取音色、语速等声学特征，并在生成阶段作为控制条件使用，从而实现画面与声音在时间维度上的高度一致。这一机制目前已支持单人及多人表演场景。

应用价值：从专业制作到大众创作
在应用层面，万相2.6同时覆盖专业与大众用户。普通用户只需上传个人视频并输入简单提示，即可生成具备电影质感的短片内容；在广告设计、短剧制作等专业场景中，创作者可通过连续提示词生成具备完整叙事结构的多镜头视频，确保人物与商品信息在不同镜头中保持一致，显著提升内容生产效率。

平台布局：统一入口加速生态扩展
目前，万相2.6已面向公众开放体验，企业用户可通过阿里云百炼调用相关API。千问APP也将于近期接入该模型，提供更丰富的创作玩法。随着万相模型家族已支持文生图、图像编辑等十余种视觉能力，其在广告、短视频与AI漫剧等领域的应用空间正持续扩大。