阿里发布万相2.6系列模型,国内首个角色扮演功能上线,支持音画同步

读懂AI1个月前更新 wuaiai
100 00

发布背景:视频生成进入系统化竞争阶段
2025年12月16日,阿里正式发布新一代通义万相2.6系列模型,并同步上线阿里云百炼与万相官网。该模型面向专业影视制作与图像创作场景进行系统级升级,被业内视为国内视频生成模型迈入“全能力集成”的重要节点。万相2.6不仅扩展了功能边界,也在实际创作流程中显著降低了视频生成门槛。

核心能力:角色扮演成为关键突破点
万相2.6最引人关注的能力,是其对角色扮演功能的正式支持。模型可基于输入视频,学习并复用角色的外观特征与音色信息,实现人物在不同情境下的连续表演。该能力既支持单人视频生成,也可完成多人、人与物共同出镜的复杂场景,填补了国内视频生成模型在“角色一致性”上的长期空白。

功能整合:音画同步与多镜头叙事并行
在功能层面,万相2.6将音画同步、多镜头生成与声音驱动等能力整合进统一体系,形成完整的视频生成链路。模型在画质清晰度、音效匹配度及指令遵循能力上均有明显提升,单次视频生成时长提升至15秒,达到国内同类模型的最高水平。同时新增的分镜控制能力,可将简要提示词自动扩展为多镜头脚本,保证叙事连贯性与关键信息的一致呈现。

技术结构:多模态联合建模成为基础能力
在模型结构设计上,通义万相2.6引入多模态联合建模机制,对参考视频中的视觉与声音信息进行统一学习。模型既可捕捉人物情绪、姿态和多角度视觉变化,也能提取音色、语速等声学特征,并在生成阶段作为控制条件使用,从而实现画面与声音在时间维度上的高度一致。这一机制目前已支持单人及多人表演场景。

应用价值:从专业制作到大众创作
在应用层面,万相2.6同时覆盖专业与大众用户。普通用户只需上传个人视频并输入简单提示,即可生成具备电影质感的短片内容;在广告设计、短剧制作等专业场景中,创作者可通过连续提示词生成具备完整叙事结构的多镜头视频,确保人物与商品信息在不同镜头中保持一致,显著提升内容生产效率。

平台布局:统一入口加速生态扩展
目前,万相2.6已面向公众开放体验,企业用户可通过阿里云百炼调用相关API。千问APP也将于近期接入该模型,提供更丰富的创作玩法。随着万相模型家族已支持文生图、图像编辑等十余种视觉能力,其在广告、短视频与AI漫剧等领域的应用空间正持续扩大。

© 版权声明

相关文章