原创 AI视频狂潮碾压创作者？核心原理曝光，下一目标是怼翻 GPT？_游戏资讯

原创 AI视频狂潮碾压创作者？核心原理曝光，下一目标是怼翻 GPT？

创始人

2025-09-18 21:02:27

0次

阅读此文之前，请您点击一下“关注”，既方便您讨论和分享，又能给您带来不一样的参与感，感谢您的支持

AI视频随着OpenAISora、谷歌Veo 3等工具惊艳问世，往昔遥不可及之梦，普通人生成电影级片段，如今已触手可及，科技正以磅礴之势改写着大众创作的可能。

却让创作者陷入与 AI“流水线作品”的竞争困境。更糟的是，虚假视频刷屏、生成能耗飙升等问题接踵而至。

图片来源网络

但你是否了解？生成结果良莠不齐、能耗堪称惊人，其症结隐匿于“潜在扩散Transformer”这一技术里，它就像暗疾，影响着系统的表现与效率。

而如今，谷歌Veo3已实现声画同步的突破，走出“无声时代”。

这一系列现象背后所蕴藏的技术原理，究竟为何？是何种精妙机制在暗中运作，引得众人好奇探寻，其真相有待揭晓。

AI视频大爆发

过去几个月，AI视频生成简直像坐了火箭，发展速度快得惊人，OpenAI的Sora、谷歌 DeepMind的Veo 3，还有初创公司 Runway的Gen-4。

诸多重磅工具纷至沓来，生成的视频片段逼真异常，几可与真实拍摄及CGI动画相媲美，这些工具所呈现的效果，着实令人惊叹不已。

图片来源网络

Netflix在《永恒宇航员》里大规模用AI做视觉特效，这可是AI视频技术头一回走进大众电视制作领域，意义不小。

不过也得说句实在话，那些演示片段大多是“精选集”，专门挑模型表现最好的展示。

但即便如此，现在连普通创作者都能靠这些工具做出让人眼前一亮的内容，这在以前想都不敢想。

可好处背后，麻烦也跟着来了，创作者得和一大堆AI“流水线作品”抢关注度，社交媒体上还全是虚假新闻视频，看着就闹心。

图片来源网络

更需关注的是，生成视频耗电量堪称惊人，较生成文本、图片，能耗高出数倍，此等状况，着实令人烦忧不已，缺少有效的解决办法。

为啥生成结果不稳定？

很多人用AI生成视频时都有这困惑：同样输个提示词，比如“给我整个独角兽吃意大利面的视频”，结果时好时坏，有时候得试十几次才能满意。

这到底是为啥？还有为啥这么费能量？答案隐匿于主流模型运用的“潜在扩散Transformer”技术里。

图片来源网络

这项技术仿若神秘宝箱，其中藏着解开谜题的关键线索，等待有心人去探寻。

先说说基础的扩散模型，你可以想象拿一张清晰的图，一层一层加随机噪点，最后变成像老电视雪花那样的“乱码”。

扩散模型就是个能逆转这个过程的神经网络，它通过学习几百万张不同加噪阶段的图，练出了从“乱码”里一步步还原图像的本事。

当你输入文字提示，模型率先生成一张随机噪声图，而后，在语言模型引导下，对其精雕细琢，使这张图逐渐演变，历经雕琢，最终幻化为契合要求的图像。

图片来源网络

不过这些语言模型的“认知“可不是凭空来的，它们大多是靠爬互联网上的海量图文、视频数据训练出来的。

说白了，模型学到的“世界观”就是互联网内容的“浓缩版”，里面难免夹杂着偏见和不良信息，这也是为啥有时候生成结果会跑偏。

如果直接处理视频的像素数据计算量大得吓人，所以大多模型都用了 “潜在扩散” 技术，简单说，就是先把视频帧和文字提示压缩成 “数学编码”，放进一个 “潜在空间” 里。

仅保留核心特征，计算量便大幅下降，这就好像是在线观影，视频先进行压缩传输，在人进行观看的时候再进行解压，模型于压缩空间修复编码，最终解码成可赏之影像，原理相通。

图片来源网络

但光有潜在扩散还不够，要解决“物体突然消失“的问题，还得靠Transformer，这玩意儿本来是处理长序列数据的，像GPT、Gemini 这些语言模型能说连贯的长句子就靠它。

视频生成里，就把视频切成一个个小 “立方体片段”，用Transformer盯着，保证整体连贯。

如此一来，生成质量得以显著提升，视频尺寸与方向亦不再受限，无论是短小精悍的短视频，还是大气磅礴的宽屏大片，皆可从中汲取经验。

新突破与未来

现在AI视频生成又有了新进步，谷歌DeepMind的Veo 3就带来个大突破，能一边生成视频一边出音频。

对口型的台词、环境音效、背景音乐全都有DeepMind的CEO都说了，这是要走出视频生成的“无声时代”。

这背后的难点在于让音频和视频对齐，他们的办法挺巧妙：在扩散模型里，把音频和视频压缩到同一个数据流里，让它们生成时同步解码。

这样声画就能精准匹配了，不会出现嘴动没声音或者声音对不上口型的尴尬情况，更有意思的是，扩散模型和大型语言模型（LLM）的界限越来越模糊了。

今年盛夏，DeepMind对外披露，正着手开展一项基于扩散模型的实验性语言模型项目，这一动态引发业内诸多关注，其后续进展值得拭目以待。

虽说视频生成耗能量，但扩散模型本身其实比Transformer效率高，要是用扩散模型做文本生成，说不定新的LLM能比现在的更省电。

总的来说，AI视频生成确实还有不少问题，比如能耗高、结果不稳定、数据里有偏见，但技术进步的速度是真快。

从没法保证连贯到解决帧间一致性，从无声到声画同步，再到往语言模型领域跨界，说不定再过阵子，扩散模型还能带来更多惊喜。

结语

从OpenAISora到Netflix用AI做特效，AI视频生成的爆发既让普通人玩转创意，也带来了创作者竞争、虚假内容与高能耗的困扰。

图片来源网络

而这一切背后，“潜在扩散Transformer”技术是关键，它以“去噪还原”为核心，借压缩编码降能耗，靠Transformer保连贯。

如今Veo3实现声画同步，扩散模型更跨界冲击语言模型，技术突破不断。

虽能耗、稳定性等问题仍在，但从“无声”到“同步”，从混乱到连贯，这场技术浪潮已势不可挡，未来还藏着更多惊喜。

上一篇：90岁院士跟儿子创业7年，又一汽车行业“头号玩家”诞生！

下一篇：原创 Faker传奇不死，Oner五杀封神！T1无缘亚洲对抗赛，DK生死局崩盘

原创 AI视频狂潮碾压创作者？核心原理曝光，下一目标是怼翻 GPT？

相关内容

热门资讯