阅读此文之前,请您点击一下“关注”,既方便您讨论和分享,又能给您带来不一样的参与感,感谢您的支持
AI视频随着OpenAISora、谷歌Veo 3等工具惊艳问世,往昔遥不可及之梦,普通人生成电影级片段,如今已触手可及,科技正以磅礴之势改写着大众创作的可能。
却让创作者陷入与 AI“流水线作品”的竞争困境。更糟的是,虚假视频刷屏、生成能耗飙升等问题接踵而至。
图片来源网络
但你是否了解?生成结果良莠不齐、能耗堪称惊人,其症结隐匿于“潜在扩散Transformer”这一技术里,它就像暗疾,影响着系统的表现与效率。
而如今,谷歌Veo3已实现声画同步的突破,走出“无声时代”。
这一系列现象背后所蕴藏的技术原理,究竟为何?是何种精妙机制在暗中运作,引得众人好奇探寻,其真相有待揭晓。
AI视频大爆发
过去几个月,AI视频生成简直像坐了火箭,发展速度快得惊人,OpenAI的Sora、谷歌 DeepMind的Veo 3,还有初创公司 Runway的Gen-4。
诸多重磅工具纷至沓来,生成的视频片段逼真异常,几可与真实拍摄及CGI动画相媲美,这些工具所呈现的效果,着实令人惊叹不已。
图片来源网络
Netflix在《永恒宇航员》里大规模用AI做视觉特效,这可是AI视频技术头一回走进大众电视制作领域,意义不小。
不过也得说句实在话,那些演示片段大多是“精选集”,专门挑模型表现最好的展示。
但即便如此,现在连普通创作者都能靠这些工具做出让人眼前一亮的内容,这在以前想都不敢想。
可好处背后,麻烦也跟着来了,创作者得和一大堆AI“流水线作品”抢关注度,社交媒体上还全是虚假新闻视频,看着就闹心。
图片来源网络
更需关注的是,生成视频耗电量堪称惊人,较生成文本、图片,能耗高出数倍,此等状况,着实令人烦忧不已,缺少有效的解决办法。
为啥生成结果不稳定?
很多人用AI生成视频时都有这困惑:同样输个提示词,比如“给我整个独角兽吃意大利面的视频”,结果时好时坏,有时候得试十几次才能满意。
这到底是为啥?还有为啥这么费能量?答案隐匿于主流模型运用的“潜在扩散Transformer”技术里。
图片来源网络
这项技术仿若神秘宝箱,其中藏着解开谜题的关键线索,等待有心人去探寻。
先说说基础的扩散模型,你可以想象拿一张清晰的图,一层一层加随机噪点,最后变成像老电视雪花那样的“乱码”。
扩散模型就是个能逆转这个过程的神经网络,它通过学习几百万张不同加噪阶段的图,练出了从“乱码”里一步步还原图像的本事。
当你输入文字提示,模型率先生成一张随机噪声图,而后,在语言模型引导下,对其精雕细琢,使这张图逐渐演变,历经雕琢,最终幻化为契合要求的图像。
图片来源网络
不过这些语言模型的“认知“可不是凭空来的,它们大多是靠爬互联网上的海量图文、视频数据训练出来的。
说白了,模型学到的“世界观”就是互联网内容的“浓缩版”,里面难免夹杂着偏见和不良信息,这也是为啥有时候生成结果会跑偏。
如果直接处理视频的像素数据计算量大得吓人,所以大多模型都用了 “潜在扩散” 技术,简单说,就是先把视频帧和文字提示压缩成 “数学编码”,放进一个 “潜在空间” 里。
仅保留核心特征,计算量便大幅下降,这就好像是在线观影,视频先进行压缩传输,在人进行观看的时候再进行解压,模型于压缩空间修复编码,最终解码成可赏之影像,原理相通。
图片来源网络
但光有潜在扩散还不够,要解决“物体突然消失“的问题,还得靠Transformer,这玩意儿本来是处理长序列数据的,像GPT、Gemini 这些语言模型能说连贯的长句子就靠它。
视频生成里,就把视频切成一个个小 “立方体片段”,用Transformer盯着,保证整体连贯。
如此一来,生成质量得以显著提升,视频尺寸与方向亦不再受限,无论是短小精悍的短视频,还是大气磅礴的宽屏大片,皆可从中汲取经验。
新突破与未来
现在AI视频生成又有了新进步,谷歌DeepMind的Veo 3就带来个大突破,能一边生成视频一边出音频。
对口型的台词、环境音效、背景音乐全都有DeepMind的CEO都说了,这是要走出视频生成的“无声时代”。
这背后的难点在于让音频和视频对齐,他们的办法挺巧妙:在扩散模型里,把音频和视频压缩到同一个数据流里,让它们生成时同步解码。
这样声画就能精准匹配了,不会出现嘴动没声音或者声音对不上口型的尴尬情况,更有意思的是,扩散模型和大型语言模型(LLM)的界限越来越模糊了。
今年盛夏,DeepMind对外披露,正着手开展一项基于扩散模型的实验性语言模型项目,这一动态引发业内诸多关注,其后续进展值得拭目以待。
虽说视频生成耗能量,但扩散模型本身其实比Transformer效率高,要是用扩散模型做文本生成,说不定新的LLM能比现在的更省电。
总的来说,AI视频生成确实还有不少问题,比如能耗高、结果不稳定、数据里有偏见,但技术进步的速度是真快。
从没法保证连贯到解决帧间一致性,从无声到声画同步,再到往语言模型领域跨界,说不定再过阵子,扩散模型还能带来更多惊喜。
结语
从OpenAISora到Netflix用AI做特效,AI视频生成的爆发既让普通人玩转创意,也带来了创作者竞争、虚假内容与高能耗的困扰。
图片来源网络
而这一切背后,“潜在扩散Transformer”技术是关键,它以“去噪还原”为核心,借压缩编码降能耗,靠Transformer保连贯。
如今Veo3实现声画同步,扩散模型更跨界冲击语言模型,技术突破不断。
虽能耗、稳定性等问题仍在,但从“无声”到“同步”,从混乱到连贯,这场技术浪潮已势不可挡,未来还藏着更多惊喜。