原创 AI视频狂潮碾压创作者?核心原理曝光,下一目标是怼翻 GPT?
创始人
2025-09-18 21:02:27
0

阅读此文之前,请您点击一下“关注”,既方便您讨论和分享,又能给您带来不一样的参与感,感谢您的支持

AI视频随着OpenAISora、谷歌Veo 3等工具惊艳问世,往昔遥不可及之梦,普通人生成电影级片段,如今已触手可及,科技正以磅礴之势改写着大众创作的可能。

却让创作者陷入与 AI“流水线作品”的竞争困境。更糟的是,虚假视频刷屏、生成能耗飙升等问题接踵而至。

图片来源网络

但你是否了解?生成结果良莠不齐、能耗堪称惊人,其症结隐匿于“潜在扩散Transformer”这一技术里,它就像暗疾,影响着系统的表现与效率。

而如今,谷歌Veo3已实现声画同步的突破,走出“无声时代”。

这一系列现象背后所蕴藏的技术原理,究竟为何?是何种精妙机制在暗中运作,引得众人好奇探寻,其真相有待揭晓。

AI视频大爆发

过去几个月,AI视频生成简直像坐了火箭,发展速度快得惊人,OpenAI的Sora、谷歌 DeepMind的Veo 3,还有初创公司 Runway的Gen-4。

诸多重磅工具纷至沓来,生成的视频片段逼真异常,几可与真实拍摄及CGI动画相媲美,这些工具所呈现的效果,着实令人惊叹不已。

图片来源网络

Netflix在《永恒宇航员》里大规模用AI做视觉特效,这可是AI视频技术头一回走进大众电视制作领域,意义不小。

不过也得说句实在话,那些演示片段大多是“精选集”,专门挑模型表现最好的展示。

但即便如此,现在连普通创作者都能靠这些工具做出让人眼前一亮的内容,这在以前想都不敢想。

可好处背后,麻烦也跟着来了,创作者得和一大堆AI“流水线作品”抢关注度,社交媒体上还全是虚假新闻视频,看着就闹心。

图片来源网络

更需关注的是,生成视频耗电量堪称惊人,较生成文本、图片,能耗高出数倍,此等状况,着实令人烦忧不已,缺少有效的解决办法。

为啥生成结果不稳定?

很多人用AI生成视频时都有这困惑:同样输个提示词,比如“给我整个独角兽意大利面的视频”,结果时好时坏,有时候得试十几次才能满意。

这到底是为啥?还有为啥这么费能量?答案隐匿于主流模型运用的“潜在扩散Transformer”技术里。

图片来源网络

这项技术仿若神秘宝箱,其中藏着解开谜题的关键线索,等待有心人去探寻。

先说说基础的扩散模型,你可以想象拿一张清晰的图,一层一层加随机噪点,最后变成像老电视雪花那样的“乱码”。

扩散模型就是个能逆转这个过程的神经网络,它通过学习几百万张不同加噪阶段的图,练出了从“乱码”里一步步还原图像的本事。

当你输入文字提示,模型率先生成一张随机噪声图,而后,在语言模型引导下,对其精雕细琢,使这张图逐渐演变,历经雕琢,最终幻化为契合要求的图像。

图片来源网络

不过这些语言模型的“认知“可不是凭空来的,它们大多是靠爬互联网上的海量图文、视频数据训练出来的。

说白了,模型学到的“世界观”就是互联网内容的“浓缩版”,里面难免夹杂着偏见和不良信息,这也是为啥有时候生成结果会跑偏。

如果直接处理视频的像素数据计算量大得吓人,所以大多模型都用了 “潜在扩散” 技术,简单说,就是先把视频帧和文字提示压缩成 “数学编码”,放进一个 “潜在空间” 里。

仅保留核心特征,计算量便大幅下降,这就好像是在线观影,视频先进行压缩传输,在人进行观看的时候再进行解压,模型于压缩空间修复编码,最终解码成可赏之影像,原理相通。

图片来源网络

但光有潜在扩散还不够,要解决“物体突然消失“的问题,还得靠Transformer,这玩意儿本来是处理长序列数据的,像GPT、Gemini 这些语言模型能说连贯的长句子就靠它。

视频生成里,就把视频切成一个个小 “立方体片段”,用Transformer盯着,保证整体连贯。

如此一来,生成质量得以显著提升,视频尺寸与方向亦不再受限,无论是短小精悍的短视频,还是大气磅礴的宽屏大片,皆可从中汲取经验。

新突破与未来

现在AI视频生成又有了新进步,谷歌DeepMind的Veo 3就带来个大突破,能一边生成视频一边出音频。

对口型的台词、环境音效、背景音乐全都有DeepMind的CEO都说了,这是要走出视频生成的“无声时代”。

这背后的难点在于让音频和视频对齐,他们的办法挺巧妙:在扩散模型里,把音频和视频压缩到同一个数据流里,让它们生成时同步解码。

这样声画就能精准匹配了,不会出现嘴动没声音或者声音对不上口型的尴尬情况,更有意思的是,扩散模型和大型语言模型(LLM)的界限越来越模糊了。

今年盛夏,DeepMind对外披露,正着手开展一项基于扩散模型的实验性语言模型项目,这一动态引发业内诸多关注,其后续进展值得拭目以待。

虽说视频生成耗能量,但扩散模型本身其实比Transformer效率高,要是用扩散模型做文本生成,说不定新的LLM能比现在的更省电。

总的来说,AI视频生成确实还有不少问题,比如能耗高、结果不稳定、数据里有偏见,但技术进步的速度是真快。

从没法保证连贯到解决帧间一致性,从无声到声画同步,再到往语言模型领域跨界,说不定再过阵子,扩散模型还能带来更多惊喜。

结语

从OpenAISora到Netflix用AI做特效,AI视频生成的爆发既让普通人玩转创意,也带来了创作者竞争、虚假内容与高能耗的困扰。

图片来源网络

而这一切背后,“潜在扩散Transformer”技术是关键,它以“去噪还原”为核心,借压缩编码降能耗,靠Transformer保连贯。

如今Veo3实现声画同步,扩散模型更跨界冲击语言模型,技术突破不断。

虽能耗、稳定性等问题仍在,但从“无声”到“同步”,从混乱到连贯,这场技术浪潮已势不可挡,未来还藏着更多惊喜。

相关内容

热门资讯

神奇“白帽子”,精准“打靶”失... 在位于松江区佘山智造园的全澜科技实验室内,创始人姜建指着一顶布满电极的白色帽子介绍:“传统失眠调控刺...
数智化为电炉炼钢点燃新引擎专题... -广告- 在钢铁行业转型升级的浪潮中,数字化与智能化技术的融入为传统电炉炼钢注入新的活力。通过先进的...
AI+算力协同创新 助力医疗大... 当前,AI医疗正深度融入临床与健康管理场景,医疗行业迎来了数智化发展新机遇。为进一步推动技术协同创新...
吉因加科技冲刺港股IPO 【深圳商报讯】(记者 钟国斌)港交所12月21日披露,吉因加科技(绍兴)股份有限公司(下称吉因加科技...
2026 AI 商业中场:从原... 来源:市场资讯 (来源:晚点LatePost) 文丨江思远 2000 年,美国互联网泡沫破灭时,G...
首都航空:用“数字翅膀”赋能旅... 自2021年12月8日加入辽宁方大集团以来,新海航首都航空四年来始终以党建为引领,以服务创新为动力,...
飞荣达:公司在液冷散热领域已展... 证券日报网讯 12月22日,飞荣达在互动平台回答投资者提问时表示,公司目前在服务器、终端设备领域研发...
快手被黑灰产攻击,黑灰产已全面... 12月22日晚,快手平台多个直播间出现色情、暴力等违规内容,快手一度关停直播。对此,快手方面回应称,...
慧研智投平台引领智能投顾时代为... 慧研智投平台通过应用最前沿的科技,致力于提供精准且个性化的投资方案,推动智能投顾业务的发展。该平台利...
户外无电无网视频汇聚平台Eas... 在视频监控领域,“没电没网”的场景一直是行业痛点。如果园、鱼塘、养殖场视频监控的实现面临着独特的挑战...
百利天恒朱义:原始创新打造超级... 来源:21世纪经济报道 21世纪经济报道记者 季媛媛 韩利明 肿瘤领域始终是医药创新的热土,PD-1...
一粒稻米,如何变身“黄金救命药... 新华社北京12月23日电 12月23日,《新华每日电讯》发表题为《一粒稻米,如何变身“黄金救命药”?...
英特尔Hammer Lake处... IT之家 12 月 23 日消息,YouTube 频道 RedGamingTech(RGT)昨日(1...
团队准备休假:Windows ... 快科技12月23日消息,随着圣诞与元旦双节临近,微软Windows Insider团队也正式开启了传...
联通在线取得基于语音识别的IP... 国家知识产权局信息显示,联通在线信息科技有限公司、联通视频科技有限公司取得一项名为“基于语音识别的I...
租机器人对顾客开启夸夸模式?海... 新年里,租一台机器人在餐厅写“福”字,再让机器人开启对顾客的“夸夸模式”,送上新年祝福,这样的就餐体...
闵行这家养老机构通过市级验收! 近日,位于上海市闵行区季乐路76号的华漕镇敬老院顺利通过上海市智慧化养老院建设验收。该院以“六大智慧...
新“前端之父”来了!智谱深夜放... 从技术上线时间点来看,这也是智谱在IPO前夜放出的关键一招。那么究竟效果如何?我们也第一时间在Z.a...
大涨!特斯拉,新纪录! 来源:市场资讯 (来源:证券时报) 特斯拉股价创历史新高。 当地时间12月22日,美股三大指数集体高...
原创 绝... 中国的绝密重器曝光,美国没想到中国撕开封锁,比预想中提前了好多年。 日前,外媒称中国科学家在深圳一座...