AI视频是如何生成的?
创始人
2026-01-12 18:42:03
0

(来源:麻省理工科技评论)

这篇文章隶属于《麻省理工科技评论》技术解读专题。让我们的作者为您梳理复杂纷繁的技术世界,助您洞察未来趋势。

对于视频生成领域来说,2025 年是重要的一年。在过去的一年里,OpenAI 公开了 Sora,Google DeepMind 推出了 Veo 3,视频初创公司 Runway 发布了 Gen-4。所有这些模型生成的视频片段,几乎无法与真实拍摄的素材或 CGI 动画区分开来。今年,Netflix 还在其剧集《永恒族》(The Eternaut)中首次使用了 AI 视觉特效。

当然,你在演示视频中看到的片段都是经过精心挑选的,旨在展示公司模型处于最佳状态时的表现。但随着这项技术掌握在比以往任何时候都多的用户手中——Sora 和 Veo 3 现已在 ChatGPT 和 Gemini 应用中向付费订阅者开放——即便是业余的影视爱好者,现在也能通过 AI 制作出色的作品。

负面影响在于,创作者正面临大量低质量 AI 内容(AI slop)的竞争,社交媒体上也充斥着虚假的新闻片段。此外,视频生成消耗的能源巨大,是文本或图像生成的许多倍。

既然 AI 生成的视频无处不在,让我们花点时间来探讨一下其背后的技术原理。

如何生成一个视频?

我们假设你只是一名普通用户。现在有一系列高端工具允许专业视频制作者将视频生成模型整合到他们的工作流程中,但大多数人会通过应用程序或网站使用这项技术。流程你应该很熟悉:“嘿,Gemini,给我做一个独角兽吃意大利面的视频,然后让它的角像火箭一样发射升空。”你得到的结果可能好坏参半。通常你需要要求模型重新生成几次甚至十次,才能得到与你预期大致相符的内容。

那么,这一切的底层逻辑是什么?为什么结果会好坏参半?为什么它消耗这么多能源?最新一波视频生成模型被称为“潜在扩散 Transformer”(latent diffusion transformers)。没错,这个名字读起来很拗口。让我们依次拆解每个部分,从“扩散”开始。

什么是扩散模型?

想象一下,取一张图像,并在上面随机散布像素点。拿着这张布满噪点的图像,再次散布像素,然后重复这一过程。重复足够多次后,最初的图像就会变成一团随机的像素混乱,就像老式电视机上的雪花噪点。

扩散模型是一种神经网络,经过训练可以逆转这一过程,将随机的噪点转化为图像。在训练过程中,它会看到处于不同像素化阶段的数百万张图像。它学习这些图像在每次添加新像素时的变化规律,从而学习如何撤销这些变化。

结果就是,当你要求扩散模型生成图像时,它会从一团随机的像素混乱开始,一步步将这一混乱转化为与其训练集中的图像大致相似的图像。

但你不想要随便一张图像——你想要你指定的图像,通常通过文本提示词来描述。因此,扩散模型会与第二个模型配对。这个辅助模型通常是一个经过训练、能将图像与文本描述匹配的大语言模型(LLM)。它指导清理过程的每一步,推动扩散模型生成大语言模型认为与提示词匹配度高的图像。

另外,这个大语言模型并不是凭空建立文本与图像之间的联系。如今大多数文本生成图像和文本生成视频的模型,都是在包含数十亿对文本与图像或文本与视频的大型数据集上训练的。这些数据是从互联网上抓取的(这种做法让许多创作者非常不满)。这意味着你从这些模型中得到的内容,是网络世界表现形式的浓缩,其中也包含了偏见(以及色情内容)带来的扭曲。

我们要理解扩散模型如何处理图像很容易。但这该技术也可以用于多种类型的数据,包括音频和视频。为了生成电影片段,扩散模型必须清理一系列图像,而不仅仅是一张图像——即视频的连续帧。

什么是潜在扩散模型?

所有这些都需要巨大的算力(也就是能源)。这就是为什么大多数用于视频生成的扩散模型使用一种称为“潜在扩散”(latent diffusion)的技术。模型不处理每个视频帧中数百万像素的原始数据,而是在所谓的“潜在空间”中工作。在这个空间里,视频帧(和文本提示词)被压缩成数学代码。这些代码只捕捉数据的基本特征,并丢弃其余部分。

类似的原理发生在你通过互联网流式传输视频时:视频以压缩格式从服务器发送到你的屏幕,以便更快传输。到达后,你的电脑或电视会将其转换回可观看的视频。

因此,最后一步是对潜在扩散过程产生的结果进行解压。一旦随机噪点的压缩帧被转化为压缩后的视频帧(且大语言模型向导认为这与用户的提示词匹配良好),压缩视频就会被转换成你可以观看的内容。

通过使用潜在扩散技术,扩散过程的工作方式与处理图像时大致相同。区别在于,像素化的视频帧现在是这些帧的数学编码,而不是帧本身。这使得潜在扩散比典型的扩散模型效率高得多。(即便如此,视频生成消耗的能源仍然比图像或文本生成多。涉及的计算量依然惊人。)

什么是潜在扩散 Transformer?

还有一个谜题尚未解开,那就是如何确保扩散过程产生一系列连贯的帧,保持物体和光线等元素在帧与帧之间的一致性。OpenAI 在开发 Sora 时,通过将其扩散模型与另一种称为 Transformer 的模型相结合,解决了这个问题。这已成为生成式视频的标准做法。

Transformer 擅长处理长序列数据,比如文字。这使它们成为 OpenAI 的 GPT-5 和 Google DeepMind 的 Gemini 等大语言模型内部的关键技术。这些模型可以生成意义通顺的长文本序列,并在数十个句子中保持一致性。

但视频不是由文字组成的。相反,视频被切割成块,以便像处理文字一样处理它们。OpenAI 提出的方法是在空间和时间两个维度上对视频进行切割。Sora 的首席研究员蒂姆·布鲁克斯(Tim Brooks)说:“这就像你有一摞所有的视频帧,然后从中切出小立方体。”

将扩散模型与 Transformer 结合带来了一些优势。由于 Transformer 专为处理序列数据而设计,它们有助于扩散模型在生成过程中保持帧与帧之间的一致性。这使得生成的视频中,物体不会莫名其妙地出现或消失。

此外,由于视频被切成了块,其尺寸和方向就不再重要。这意味着最新一波视频生成模型可以在广泛的示例视频上进行训练,从手机拍摄的短竖屏视频到宽银幕电影。训练数据的多样性使得视频生成技术远胜于两年前。这也意味着视频生成模型现在可以按要求生成各种格式的视频。

音频如何生成?

Veo 3 的一大进步是它可以生成带有音频的视频,从口型同步的对话到音效和背景噪音。这是视频生成模型的首创。Google DeepMind 首席执行官德米斯·哈萨比斯(Demis Hassabis)在今年的 Google I/O 大会上说:“我们正在走出视频生成的无声时代。”

这一技术的挑战在于找到一种方法来对齐视频和音频数据,以便扩散过程能同时处理两者。Google DeepMind 的突破在于一种新方法,它将音频和视频压缩成扩散模型内部的一块单一数据。当 Veo 3 生成视频时,其扩散模型通过同步过程同时产生音频和视频,确保声音和图像是对齐的。

大语言模型也是这样工作的吗?

至少目前还不是。扩散模型最常用于生成图像、视频和音频。用于生成文本(包括计算机代码)的大语言模型是使用 Transformer 构建的,但其界限正在变得模糊。我们已经看到 Transformer 正在与扩散模型结合以生成视频。今年夏天,Google DeepMind 透露,通过使用扩散模型而非 Transformer 来生成文本,他们正在构建一个实验性的大语言模型。

这里情况开始变得令人困惑:虽然视频生成(使用扩散模型)消耗大量能源,但扩散模型本身实际上比 Transformer 更高效。因此,通过使用扩散模型代替 Transformer 来生成文本,Google DeepMind 的新大语言模型可能比现有模型效率高得多。在不久的将来,预计我们会看到更多基于扩散模型的成果。

原文链接:

https://www.technologyreview.com/2025/09/12/1123562/how-do-ai-models-generate-videos/

相关内容

热门资讯

中广核运营取得水下摄像头专利,... 国家知识产权局信息显示,中广核核电运营有限公司取得一项名为“水下摄像头”的专利,授权公告号CN223...
理想境界申请扫描器驱动方法专利... 国家知识产权局信息显示,成都理想境界科技有限公司申请一项名为“一种扫描器驱动方法、可读存储介质及装置...
核聚变竞赛变天:不拼大装置改拼... 在核聚变领域,选错路线几乎等同于浪费十年。 从本质上来看,无论是托卡马克(Tokamak)、仿星器、...
AI宠物玩具狂潮来了 作者 | 黄昱 编辑 | 周智宇 在最近的国际消费电子展CES 2026上,一只有呼吸、能回应、有个...
冠鼎科技申请水冷式散热装置专利... 国家知识产权局信息显示,冠鼎科技股份有限公司申请一项名为“水冷式散热装置”的专利,公开号CN1213...
马斯克引爆又一新概念!软件ET... 截至2026年1月12日 14:02,软件ETF基金(561010)逼近涨停,盘中上涨9.33%, ...
原创 A... 嘿,朋友们,上午刷手机了吗?我猜你刷了。但你可能没意识到,你指尖滑过的每一条信息、看到的每一个推送,...
“工业医生”日联科技为中国航天... 上证报中国证券网讯(记者 柴刘斌 实习生 陆恒)进入2026年,中国商业航天产业迎来快速发展期。作为...
高德红外发布新一代红外成像系统... 上证报中国证券网讯(记者 丁鹏)1月12日,上证报记者从高德红外了解到,公司近日推出了全新一代红外成...
青岛双工位激光玻璃切割机厂家十... 在制造业蓬勃发展的今天,激光切割技术以其精准高效的特性,成为工业领域不可或缺的加工手段。青岛作为中国...
“十五五”开好局 起好步丨聚链... 位于江西赣州南康区的赣州低空经济产业园,是全国首个集测试、研发、制造、培训等于一体的低空经济产业园,...
2025年性价比最高的手机:实... 在2025年的智能手机市场中,性价比机型依然是消费者关注的焦点。如何在3000-4000元预算内找到...
多重积极因素共振,港股科技板块... 来源:界面新闻 行情解读: 开年以来港股市场在多重因素交织影响下呈现一定波动。宏观层面,主要央行延续...
原创 最... 大家好我是指尖,暴击夺宝,这个玩法不知道大家有没有参与,其实我觉得这个玩法的设定和玉镖夺魁很像,不适...
2026年SLG赛道的首次,终... 2026年首个进入iOS畅销榜TOP4的SLG产品出现了。 1月10日,B站《三国:谋定天下》更新“...
寻找隐形冠军丨“纳米抛光”赋能... 本文转自【新华网客户端】; 超精密加工技术是现代制造业的重要发展方向之一,核心精密零部件的精度一定程...
原创 荣... 如果你回顾2025年末到2026年初的中端手机市场,会发现一个很有意思的现象:参数越来越卷,但真正“...
第一赛段即将开赛:关于新赛季,... 2026年新赛季已经开始,英雄联盟各大赛区也在近期相继宣布了新赛季的正式开赛时间,LPL与LCK一样...
RGB-Mini LED电视海... 在电视领域,2025 年无疑是 RGB-Mini LED 技术的“元年”。 从 25 年初海信发布首...
山东AI大动作,为何选中济南? 从DeepSeek等国产大模型的爆火到人形机器人的出圈,以大模型和具身智能为代表的人工智能在刚刚过去...