VAE再被补刀!清华快手SVG扩散模型亮相,训练提效6200%,生成提速3500%
创始人
2025-10-28 17:21:52
0

闻乐 发自 凹非寺

量子位 | 公众号 QbitAI

前脚谢赛宁刚宣告VAE在图像生成领域退役,后脚清华与快手可灵团队也带着无VAE潜在扩散模型SVG来了。

该方法实现了在训练效率上62倍、生成速度上35倍的提升。

VAE为何被接连抛弃?主要还是因为语义纠缠的缺陷——语义特征都放在同一个潜空间,调一个数值就会“牵一发而动全身”,比如只想改变猫的颜色,结果体型、表情都跟着变。

和谢赛宁团队极简复用预训练编码器、改造DiT架构,专注于生成性能的RAE不同,SVG通过语义+细节双分支+分布对齐,实现了多任务通用。

下面具体来看。

主动构建语义与细节融合的特征空间

在传统的「VAE+扩散模型」图像生成范式中,VAE的核心作用是将高分辨率图像压缩为低维的潜空间特征(可以理解为图像的简化代码),供后续扩散模型学习生成逻辑。

但这样会使不同类别、不同语义的图像特征会混乱地交织在一起,比如猫和狗的特征边界模糊不清等。

直接导致两个问题:

  • 一是扩散模型训练效率极低,需要数百万步迭代才能勉强理清特征逻辑;

  • 二是生成过程繁琐,往往需要经过几十甚至上百步采样才能输出清晰图像。

面对VAE的困境,谢赛宁团队的RAE技术选择了极致聚焦生成的思路。直接复用DINOv2、MAE等成熟的预训练编码器,不额外修改编码器结构,仅通过优化解码器来还原图像细节,同时针对性地改造扩散模型架构。

最终实现了生成效率与质量的跨越式提升,简单说就是把重心全放在了“把图生成得又快又好”上。

而清华&快手可灵团队的SVG技术,则走了兼顾生成与多任务通用的路线,核心差异就在于对特征空间的构建逻辑上。

RAE是直接复用预训练特征,SVG 则是主动构建语义与细节融合的特征空间。

具体来看,SVG选择以DINOv3预训练模型作为语义提取器。

原因是DINOv3经过大规模自监督学习,能够精准捕捉图像的高层语义信息,让猫、狗、汽车等不同类别的特征边界能够清晰可辨,从根源上解决了语义纠缠问题。

但团队也发现,DINOv3提取的特征偏重于宏观语义,会丢失颜色、纹理等高频细节,因此又专门设计了一个轻量级的残差编码器来进行细节补充,针对性地学习这些被忽略的细节信息。

而为了让「语义」和「细节补充」能够完美融合,SVG还加入了关键的分布对齐机制

这一机制通过技术手段调整残差编码器输出的细节特征,使其在数值分布上与DINOv3的语义特征完全匹配,避免细节信息扰乱语义结构。

实验数据也印证了这一机制的重要性。去掉分布对齐后,SVG生成图像的FID值(衡量生成图像与真实图像相似度的核心指标,数值越低越优)从6.12升至9.03,生成质量大幅下滑。

实验结果显示,SVG在生成质量、效率、多任务通用性上全面超越传统VAE方案。

训练效率方面,在ImageNet 256×256数据集上,SVG-XL模型仅训练80个epoch,在无分类器引导时FID达6.57,远超同规模基于VAE的SiT-XL(22.58);如果延长训练至1400个epoch,FID可低至1.92,接近当前顶级生成模型水平。

推理效率方面,消融实验中,5步采样时,SVG-XL的gFID为12.26,而SiT-XL(SD-VAE)为69.38、SiT-XL(VA-VAE)为74.46。这表明在较少的采样步数下,SVG-XL就能达到较好的生成质量。

不仅是生图,SVG的特征空间继承了DINOv3的能力,可直接用于图像分类、语义分割、深度估计等任务,且无需微调编码器。例如,在ImageNet-1K分类任务中Top-1精度达到81.8%,与原始DINOv3几乎一致;在ADE20K语义分割任务中mIoU达46.51%,接近专门的分割模型。

团队介绍

团队由郑文钊担任项目负责人,目前是加州大学伯克利分校博士后。此前,他在清华大学自动化系获博士学位,研究集中在人工智能和深度学习领域。

同样来自清华自动化系的史明磊和王皓霖目前均在攻读博士学位,研究重点为多模态生成模型。

其中,史明磊透露自己还在创办一家专注于人工智能应用的公司。

从左到右:郑文钊、史明磊、王皓霖

Ziyang Yuan、Xiaoshi Wu、Xintao Wang、Pengfei Wan则来自快手可灵团队。

其中,Pengfei Wan是快手可灵视频生成模型负责人。

从谢赛宁团队的RAE到清华快手的SVG,尽管技术路线各有侧重,但从两者的突破可以看出,预训练视觉模型的特征空间,或许已经具备了替代VAE的能力。

论文地址:https://arxiv.org/abs/2510.15301

代码地址:https://github.com/shiml20/SVG

相关内容

热门资讯

中国大模型产业从狂热投入迈入可... 来源:滚动播报 (来源:千龙网) 中国最大的独立大模型厂商,北京智谱华章科技股份有限公司,已率先通过...
爱朋医疗:公司布局了多模态AD... 证券日报网讯 12月19日,爱朋医疗在互动平台回答投资者提问时表示,公司布局了多模态ADHD行为训练...
原创 普... 以前总觉得“神魔大战”是传说,直到《新倩女幽魂》新版本“一念神魔”上线,我才知道原来“成神”和“堕魔...
谷歌SEO高质量外链获取攻略与... 想为你的网站找到高质量且有效的外链资源,但面对浩如烟海的互联网,你是否感到无从下手,担心投入大量时间...
华为云零售峰会2025:Dat... 12月18日-12月19日,“共筑智能时代伟大品牌——华为云零售峰会2025”在成都举办。会上,泸州...
AI人才争夺战白热化,谷歌另辟... IT之家 12 月 20 日消息,在 OpenAI、Meta 和 Anthropic 之间的人才竞争...
SpaceX罕见披露卫星失联事... 据媒体19日报道,数小时前,近期备受资本市场关注的SpaceX罕见披露了一起在轨卫星事故。 据“星链...
【年度AI观察】2025,人形... 文 | 智能相对论 作者 | 许成行 2025年,人形机器人产业在争议中迎来发展深水区。 一边是20...
爆屏修复机构排名揭秘:靠谱好用... 在当今数字化时代,手机已经成为人们生活中不可或缺的工具。然而,手机屏幕不慎摔碎、出现裂痕等爆屏情况时...
“风清”“风雷”“风顺”气象人... (来源:经济日报) 转自:经济日报 12月19日,中国气象局发布“风清”“风雷”“风顺”三个气象人...
“固态电池”上市容易,上车可就... 作者|Hayward 原创首发|蓝字计划 在“国产 GPU 第一股”“国产GPU 第二股”点燃投资市...
“千兆上网”仍卡顿,运营商回应... “光纤到户,千兆上网”近年在大城市逐渐普及,然而很多用户在打游戏或者视频直播时依然会遇到卡顿问题,这...
元戎启行获产业巨头追捧,剑指2... 来源:华旋评测 据媒体报道,元戎启行获得国内头部Tier 1和海外豪华车企的青睐,可能获得战略投资。...
ChatGPT新增暖心程度调节... IT之家 12 月 20 日消息,据科技媒体 The Verge 今天报道,OpenAI 昨天在 C...
广告电商MCN协同发展,哪家母... 概述 在母婴垂直领域,多个平台基于用户规模、服务范围与专业度等维度呈现不同特点。以下内容基于公开信息...
摩尔线程上市后的第一场大会,办... 国产GPU的叙事重心,正在从“造芯”转向“造生态”。 作者|王艺 摩尔线程上市后的首场大会来了。 2...
大庆油田数智技术减负提效 □伊丽娜 王凤颖 本报记者 刘楠 李民峰 中国石油大庆油田自主研发的抽油机井电参数字化技术,已累计应...
求囤货照片,美国知名空头质疑英... 美国知名空头迈克尔·伯里征求美国英伟达公司图形处理器(GPU)被客户囤积的证据,尤其是照片。 美国本...
苹果为何在日本大幅降低“苹果税... 为了遵守一部新生效的法律,日本的“苹果税”率从30%调降至21%,中小开发者从15%降至10% 文 ...
公牛集团回应宣传语争议:有第三... 来源:澎湃新闻 此前,广东中山市家的电器有限公司(以下简称“家的公司”)多个销售人员在社交平台发布视...