阿里视频生成模型登场！号称全球功能最全，附一手体验_游戏资讯

阿里视频生成模型登场！号称全球功能最全，附一手体验

创始人

2025-12-16 22:41:38

0次

智东西

作者 | 李水青

编辑 | 心缘

智东西12月16日报道，今日，阿里推出新一代万相2.6系列模型。该系列模型支持音画同步、多镜头生成及声音驱动等多项功能，号称是全球功能最全的视频生成模型，并且是国内首个支持角色扮演功能的视频模型。

相比于9月发布的万相2.5，万相2.6本次升级面向专业影视和图像创作，进一步提升了画质、音效、指令遵循等能力，单次视频时长实现国内最高的15s，还新增了角色扮演和分镜控制功能。

智东西第一时间试用了万相2.6，发现稳定的音画同步生成在这一版本中已经是标配，指令遵循能力提升；全新的分镜控制功能表现惊艳，能够理解脚本分镜术语，多镜头间的主体、场景一致性较强，剪辑效果连贯，多人互动仍略有机械感，但比此前更接近真人；角色扮演功能也能实现贴合原角色特征，但多人场景可能出现角色替换错配问题。

即日起，所有人可直接在万相官网体验万相2.6，企业用户还能通过阿里云百炼调用模型API，据悉，千问APP也将于近期上线该模型。

体验链接：

万相官网：https://tongyi.aliyun.com/wan/

阿里云百炼API：https://bailian.console.aliyun.com/?tab=model#/model-market/all?providers=wan

一、上传多镜头脚本，AI直接生成15秒剧情短片

如下视频所示，当我上传一张我的数字人分身的照片，输入一段分镜脚本提示词，万相2.6在几分钟之内一次就成功生成了我需要的带音画同步的视频，与提示词精准匹配，分镜衔接具有大片感，并且生成的人物保持了较好一致性，没有出现明显“穿帮”镜头。

提示词：

爱豆的台前与幕后。

镜头1 [0-2秒] 女孩在台上唱歌，星光璀璨。

镜头2 [3-6秒] 周围的灯光骤暗，女生在化妆镜前卸妆。

镜头3 [7-10秒] 远景，女生穿着机车服，骑着摩托车呼啸而过。

▲万相2.6生成的视频（源自：智东西）

当我加大难度，上传了一个男生和女生走在操场上的照片，并输入围绕“男生向女生表白”主题的相关分镜提示词，如下视频所示，万相2.6也能够在几分钟之内生成准确呈现剧情的15秒视频，人物的动作、嘴型和声音比较一致，人物的情绪饱满，不过相比于上一个单人视频略显AI味，不如真人表演具有灵动感，但已经好过之前的AI生成效果。

提示词：

校园操场，男生真诚跪地表白，氛围温暖感人。

镜头1 [0-5秒] 中景：男生叫住女生，紧张递花，女生疑惑。

镜头2 [6-10秒] 远景：男女生对视，认真告白，女生惊讶捂嘴。

镜头3 [10-15秒] 特写，女生点头接受，对男生笑。

▲万相2.6生成的视频（源自：智东西）

下面是一段通义万相官方公布的分镜控制功能示例，更加专业的操作人员配合万相2.6试用，有望生成大片感更足的多分镜视频。

▲万相2.6分镜控制功能示例（图源：通义万相）

二、国内首个AI视频角色扮演模型，实测一键变“女版马斯克”

然后来看看角色扮演，万相2.6能参考输入视频中的角色外观和音色、实现角色扮演，按照提示词生成单人、多人、人与物合拍的视频。

当我上传一段马斯克采访的相关视频，并输入我的数字人分身，希望让我的分身去模仿马斯克的受访时的神态，万相2.6能快速将马斯克替换为我的“数字分身”——一个女版马斯克，穿着大码的夹克叉腿作者，两手交叉一边深度一思考一边认真讲述自己的观点，神态高度还原了马斯克，但生成视频的声音依然保留了男性声音。

▲万相2.6生成的视频（源自：智东西）

当我加大难度，上传了一个动态效果更强、有多个角色的视频：哈利・波特的好朋友赫敏・格兰杰飞奔向他两人拥抱，只见万相2.6也能够捕捉到人物，准确地将赫敏替换成我的数字分身，从远处飞奔过来，朋友见面的喜悦的神态、动作都还原地十分生动。

▲万相2.6生成的视频（源自：智东西）

美中不足是万相2.6捕捉和替换角色有点像短视频平台的变身特效一样“随意”，有一帧依然保留了原演员艾玛・沃特森的画面，而最后一帧将哈利·波特的脸换成了我的数字分身。理论上这是可以通过提示词调整的，但在我使用的时候该功能无法进行提示词编辑。如果万相2.6能针对多角色视频增加一个“角色选择”勾选功能，这一功能的可用性或许将更高。

针对角色扮演，下面是通义万相官方提供的一个示例：用户上传一段个人视频，并输入一段科幻悬疑风格的提示词，万相2.6能快速完成分镜设计、角色演绎、画面配音等环节工作。

▲万相2.6角色扮演功能实例（图源：通义万相）

三、支持多模态联合建模与学习，可进行高层语义理解

主打“面向专业影视制作”，万相2.6在业界十分关注的“细节穿帮”问题上表现如何，做了哪些工作？

万相2.6相关负责人在采访中告诉智东西，现在没有任何一个模型完全做到没有Bad Case（所谓的“穿帮”），万相2.6的稳定性要比上个版本明显加强，当用户多次输入提示词可能得到不同的结果，其实真人演员对同一个剧本每次的表现也是不一样的。它不是为了去解决“穿帮”问题，（不过）用户可以使用多次生成来看哪一个结果更符合预期。

其在模型结构上集成了多项创新技术，可对输入参考视频进行多模态联合建模与学习，参考具有时序信息的主体情绪、姿态和多角度全面视觉特征，同时提取音色、语速等声学特征，在生成阶段作为参考条件控制，实现从画面到声音的全感官全维度一致性保持与迁移，目前万相可支持单人和多人的表演。

在分镜控制上，通义万相能通过高层语义理解，将原始输入构建为具备完整故事线与叙事张力的专业级多镜头段落，在多镜头切换的过程中保持核心主体、场景布局和环境氛围统一建模，确保全片在内容、节奏和氛围上的高一致性。

结语：国产视觉生成模型功能加速迭代

今年9月，阿里率先在国内发布音画同步的视频生成模型万相2.5，在权威大模型评测集LMArena上，万相图生视频位居国内第一。三个多月后，万相2.6又推出了角色替换、多镜头控制等功能，提升幅度明显。

国产视觉生成模型正在刷新更多全球记录。目前，万相模型家族已支持文生图、图像编辑、文生视频、图生视频、人声生视频、动作生成、角色扮演及通用视频编辑等10多种视觉创作能力，据称已成为全球功能最全的视频生成模型。

上一篇：快手提出熵比裁剪方法，从局部约束到全局稳定的关键一跃

下一篇：专家学者共话“面向未来的教育和学习”

阿里视频生成模型登场！号称全球功能最全，附一手体验

相关内容

热门资讯