智东西
作者 | 李水青
编辑 | 心缘
智东西12月16日报道,今日,阿里推出新一代万相2.6系列模型。该系列模型支持音画同步、多镜头生成及声音驱动等多项功能,号称是全球功能最全的视频生成模型,并且是国内首个支持角色扮演功能的视频模型。
相比于9月发布的万相2.5,万相2.6本次升级面向专业影视和图像创作,进一步提升了画质、音效、指令遵循等能力,单次视频时长实现国内最高的15s,还新增了角色扮演和分镜控制功能。
智东西第一时间试用了万相2.6,发现稳定的音画同步生成在这一版本中已经是标配,指令遵循能力提升;全新的分镜控制功能表现惊艳,能够理解脚本分镜术语,多镜头间的主体、场景一致性较强,剪辑效果连贯,多人互动仍略有机械感,但比此前更接近真人;角色扮演功能也能实现贴合原角色特征,但多人场景可能出现角色替换错配问题。
即日起,所有人可直接在万相官网体验万相2.6,企业用户还能通过阿里云百炼调用模型API,据悉,千问APP也将于近期上线该模型。
体验链接:
万相官网:https://tongyi.aliyun.com/wan/
阿里云百炼API:https://bailian.console.aliyun.com/?tab=model#/model-market/all?providers=wan
一、上传多镜头脚本,AI直接生成15秒剧情短片
如下视频所示,当我上传一张我的数字人分身的照片,输入一段分镜脚本提示词,万相2.6在几分钟之内一次就成功生成了我需要的带音画同步的视频,与提示词精准匹配,分镜衔接具有大片感,并且生成的人物保持了较好一致性,没有出现明显“穿帮”镜头。
提示词:
爱豆的台前与幕后。
镜头1 [0-2秒] 女孩在台上唱歌,星光璀璨。
镜头2 [3-6秒] 周围的灯光骤暗,女生在化妆镜前卸妆。
镜头3 [7-10秒] 远景,女生穿着机车服,骑着摩托车呼啸而过。
▲万相2.6生成的视频(源自:智东西)
当我加大难度,上传了一个男生和女生走在操场上的照片,并输入围绕“男生向女生表白”主题的相关分镜提示词,如下视频所示,万相2.6也能够在几分钟之内生成准确呈现剧情的15秒视频,人物的动作、嘴型和声音比较一致,人物的情绪饱满,不过相比于上一个单人视频略显AI味,不如真人表演具有灵动感,但已经好过之前的AI生成效果。
提示词:
校园操场,男生真诚跪地表白,氛围温暖感人。
镜头1 [0-5秒] 中景:男生叫住女生,紧张递花,女生疑惑。
镜头2 [6-10秒] 远景:男女生对视,认真告白,女生惊讶捂嘴。
镜头3 [10-15秒] 特写,女生点头接受,对男生笑。
▲万相2.6生成的视频(源自:智东西)
下面是一段通义万相官方公布的分镜控制功能示例,更加专业的操作人员配合万相2.6试用,有望生成大片感更足的多分镜视频。
▲万相2.6分镜控制功能示例(图源:通义万相)
二、国内首个AI视频角色扮演模型,实测一键变“女版马斯克”
然后来看看角色扮演,万相2.6能参考输入视频中的角色外观和音色、实现角色扮演,按照提示词生成单人、多人、人与物合拍的视频。
当我上传一段马斯克采访的相关视频,并输入我的数字人分身,希望让我的分身去模仿马斯克的受访时的神态,万相2.6能快速将马斯克替换为我的“数字分身”——一个女版马斯克,穿着大码的夹克叉腿作者,两手交叉一边深度一思考一边认真讲述自己的观点,神态高度还原了马斯克,但生成视频的声音依然保留了男性声音。
▲万相2.6生成的视频(源自:智东西)
当我加大难度,上传了一个动态效果更强、有多个角色的视频:哈利・波特的好朋友赫敏・格兰杰飞奔向他两人拥抱,只见万相2.6也能够捕捉到人物,准确地将赫敏替换成我的数字分身,从远处飞奔过来,朋友见面的喜悦的神态、动作都还原地十分生动。
▲万相2.6生成的视频(源自:智东西)
美中不足是万相2.6捕捉和替换角色有点像短视频平台的变身特效一样“随意”,有一帧依然保留了原演员艾玛・沃特森的画面,而最后一帧将哈利·波特的脸换成了我的数字分身。理论上这是可以通过提示词调整的,但在我使用的时候该功能无法进行提示词编辑。如果万相2.6能针对多角色视频增加一个“角色选择”勾选功能,这一功能的可用性或许将更高。
针对角色扮演,下面是通义万相官方提供的一个示例:用户上传一段个人视频,并输入一段科幻悬疑风格的提示词,万相2.6能快速完成分镜设计、角色演绎、画面配音等环节工作。
▲万相2.6角色扮演功能实例(图源:通义万相)
三、支持多模态联合建模与学习,可进行高层语义理解
主打“面向专业影视制作”,万相2.6在业界十分关注的“细节穿帮”问题上表现如何,做了哪些工作?
万相2.6相关负责人在采访中告诉智东西,现在没有任何一个模型完全做到没有Bad Case(所谓的“穿帮”),万相2.6的稳定性要比上个版本明显加强,当用户多次输入提示词可能得到不同的结果,其实真人演员对同一个剧本每次的表现也是不一样的。它不是为了去解决“穿帮”问题,(不过)用户可以使用多次生成来看哪一个结果更符合预期。
其在模型结构上集成了多项创新技术,可对输入参考视频进行多模态联合建模与学习,参考具有时序信息的主体情绪、姿态和多角度全面视觉特征,同时提取音色、语速等声学特征,在生成阶段作为参考条件控制,实现从画面到声音的全感官全维度一致性保持与迁移,目前万相可支持单人和多人的表演。
在分镜控制上,通义万相能通过高层语义理解,将原始输入构建为具备完整故事线与叙事张力的专业级多镜头段落,在多镜头切换的过程中保持核心主体、场景布局和环境氛围统一建模,确保全片在内容、节奏和氛围上的高一致性。
结语:国产视觉生成模型功能加速迭代
今年9月,阿里率先在国内发布音画同步的视频生成模型万相2.5,在权威大模型评测集LMArena上,万相图生视频位居国内第一。三个多月后,万相2.6又推出了角色替换、多镜头控制等功能,提升幅度明显。
国产视觉生成模型正在刷新更多全球记录。目前,万相模型家族已支持文生图、图像编辑、文生视频、图生视频、人声生视频、动作生成、角色扮演及通用视频编辑等10多种视觉创作能力,据称已成为全球功能最全的视频生成模型。