谢赛宁REPA得到大幅改进,只需不到4行代码
创始人
2025-12-16 01:21:34
0

来源:市场资讯

(来源:机器之心Pro)

机器之心报道

编辑:Panda

邹忌曾经有一个问题:吾与徐公孰美?

而对于 REPA,也有一个类似的问题:全局信息空间结构,哪个对表征对齐更重要?

表征对齐(REPA)可通过将强大的预训练视觉编码器的表征蒸馏为中间扩散特征,来指导生成式训练。该方法于去年十月份问世,一直以来都备受关注,已成为加速扩散 Transformer(Diffusion Transformers)训练的一项有力技术。参阅报道《扩散模型训练方法一直错了!谢赛宁:Representation matters》。

但是,其还有一个很基本的问题悬而未决:对生成而言,目标表征的哪个方面更重要?是其「全局」语义信息(例如,以 ImageNet-1K 准确率衡量),还是其空间结构(即,图像块 token 之间的成对余弦相似度)?

此前,普遍观点认为,如果使用更强的全局语义性能作为目标表征,可以带来更好的生成效果。

为了研究这一点,Adobe Research、澳大利亚国立大学和纽约大学的一个联合团队对 27 种不同的视觉编码器和不同的模型规模进行了大规模的实证分析。

然后他们得到了一个出人意料的结果:驱动目标表征生成性能的是空间结构,而非全局性能!

更令人惊讶的是,基于此发现,他们还构建了一种简单方法(代码实现少于 4 行),即iREPA,其能在各种视觉编码器、模型大小和训练变体(如 REPA、REPA-E、Meanflow、JiT 等)中持续提高 REPA 的收敛速度。

本论文的第一作者是 Jaskirat Singh,澳大利亚国立大学二年级博士生,他在 Adobe 实习期间完成了此研究。目前也正在 Meta 实习。

此外,作者名单中还有多位万引大佬,包括 Adobe 资深研究科学家 Richard Zhang、Adobe 高级首席科学家 Eli Shechtman 以及我们熟悉的纽约大学谢赛宁。

下面我们来看看这项研究的具体内容。

反直觉的发现:全局强,不代表生成强

在深入探究之前,我们先来看几个令人费解的现象。

长期以来,研究人员通常假设:一个视觉编码器在 ImageNet-1K 上的分类准确率越高,它提取的特征就越好,用来指导扩散模型生成图像的效果也就应该越好。

然而,论文作者在测试了 27 种不同的编码器后,发现事实并非如此。

该团队举了几个非常有力的反例:

这些现象指向了一个结论:更高的验证准确率,并不意味着它是更好的生成表征。

真正的主宰:空间结构

如果不是全局语义信息在起作用,那究竟是什么在驱动生成性能?

作者提出假设:是空间结构,即图像块 token 之间的成对余弦相似度。

为了量化这一指标,作者引入了空间自相似性(Spatial Self-Similarity)的概念。简单来说,就是衡量特征图在空间上的「纹理」和「关系」是否清晰。作者使用了几种不同的度量标准,其中最直观的是LDS(Local vs. Distant Similarity):

通俗点说,LDS 衡量的是:在特征空间中,相邻的图像块是否比相距较远的图像块更相似?如果一个编码器能很好地保留这种「近亲远疏」的空间结构,它的 LDS 分数就高。

令人震惊的相关性出现了(如上图所示):传统的线性探测准确率(代表全局信息)与生成质量(FID)的相关性极低,皮尔逊相关系数仅为 r = -0.260。而空间结构指标(LDS) 与生成质量的相关性高达 |r| = 0.852!

这完美解释了之前的反例:SAM2 虽然不懂「这张图是猫」,但它极其擅长理解「猫的轮廓在哪里」,因此拥有极佳的空间结构,进而带来了出色的生成效果。

iREPA:不到 4 行代码的改进

既然明确了「空间结构」才是核心,那么与其盲目追求更强的语义编码器,不如想办法在训练过程中强化空间信息的传递。

基于此,该团队提出了iREPA。但其核心改动非常简单,代码实现甚至不到 4 行,主要包含两个修改:

1. 用卷积层替代 MLP 投影层

标准的 REPA 使用 MLP 将扩散模型的特征映射到目标表征的维度。作者指出,MLP 是「有损」的,会破坏 patch 之间的空间对比度。

其改进方法是:将其替换为一个简单的3×3 卷积层。卷积天然具有归纳偏置(Inductive Bias),能够更好地保留局部的空间关系。

2. 引入空间归一化层

作者发现,预训练视觉编码器的 patch token 中往往包含大量的全局信息(就像一层笼罩全图的「雾」),导致前景和背景的 token 居然有不低的相似度。

其改进方法是:既然这层全局均值信息对生成没用甚至有害,那就把它去掉。作者对目标表征引入了一个空间归一化(Spatial Normalization)层,减去均值,除以标准差。这牺牲了全局信息,但极大地增强了 patch 之间的空间对比度。

算法代码如下:

效果:提升显著

iREPA 的有效性并非仅停留在理论层面,作者通过一系列大规模实验,证明了这一改进方案具有极强的鲁棒性和通用性。

收敛速度更快

对于扩散 Transformer(如 SiT-XL/2)的训练而言,收敛速度就是金钱。实验结果表明,无论使用何种视觉编码器作为「教师」,iREPA 都能显著加速「学生」模型的训练收敛。

从下图可以看到,在各种模型规模(SiT-XL/2, SiT-B/2)和编码器(DINOv3, WebSSL, CLIP 等)下,iREPA 都显著提高了收敛速度 。

编码器通用性

通常一种优化方法可能只对特定类型的模型有效,但 iREPA 展现出了惊人的通用性。作者测试了多达 27 种不同的视觉编码器,涵盖了监督学习(如 DeiT)、自监督学习(如 DINOv2, MoCo v3, MAE)以及多模态模型(如 CLIP)。

如下图所示,在横跨所有测试的编码器中,iREPA(红色柱状图)的生成 FID 分数均低于标准 REPA(蓝色柱状图)。

可以看到,即使是像 SAM2 这样分类准确率极低(24.1%)的分割模型,在经过 iREPA 的空间增强处理后,其指导生成的 FID 分数甚至优于许多分类强模型。

同时,对于 DINOv3 和 WebSSL 等目前最强的特征提取器,iREPA 依然能进一步压低 FID,提升生成上限。

扩展性:模型越大,收益越高

这是一个非常符合「Scaling Law」趋势的发现。作者探究了 iREPA 在不同规模模型上的表现:

广泛适用性

iREPA 并不仅限于特定的 Transformer 架构,它能无缝集成到各种现有的先进训练流中.

像素空间扩散 (Pixel-space Diffusion):在下图中,作者展示了将 iREPA 应用于 JiT (Just-in-Time) 模型的结果。即使在像素空间操作,强化空间信息传递依然能显著加速收敛.

先进配方兼容: 如下表所示,当结合 REPA-E(一种端到端调优 VAE 的方法)或 MeanFlow 等最新技术时,iREPA 依然能稳定地提供额外的性能增益。这说明它触及了生成模型训练的一个底层共性问题,而非仅仅是某种特定设置下的特例。

视觉质量有肉眼可见的结构改善

除了枯燥的数据,生成的图像本身最有说服力。

如下图所示,对比标准 REPA 和 iREPA 生成的样本(如鱼、公鸡、猫等类别),可以发现 iREPA 生成的图像在物体轮廓、纹理细节和整体结构的连贯性上都要优于前者。

而在下图中,作者可视化了经过卷积投影和空间归一化后的特征图。可以看到,通过 iREPA 处理后,特征图(右侧)明显比标准 REPA(左侧)保留了更清晰的语义边界和空间对比度,前景与背景的区分更加鲜明。

该团队也进行了消融实验,验证了各组件的有效性。

结语

相关内容

热门资讯

阿里达摩院医疗AI模型入选国家... 央广网北京12月15日消息(记者 冀文超)近日,工业和信息化部、国家药品监督管理局联合组织的2025...
C909飞机安全载客超3000... 本报北京12月14日电 (记者谷业凯、邱超奕)记者从中国商用飞机有限责任公司获悉:目前,C909飞机...
微软“悄然植入”Copilot... 来源:环球网 【环球网科技综合报道】12月15日消息,据Windows Latest报道,微软可能...
仰望星空,脚踏实地:上海农商银... 在国家“十四五”规划全面收官,航天强国战略全面落地的关键时期,我国商业航天正以前所未有的速度迈向规模...
新方法提升AI预训练效率和准确... 科技日报讯(记者 刘霞)加拿大滑铁卢大学研发出一种名为SubTrack++的全新训练方法,不仅可大幅...
在科技课堂“玩”出创新力 一个2.5L的饮料瓶能做什么? 在留好气孔与出水孔的瓶体上粘贴3D打印的尾翼和底座,做成简易的“水...
原创 芯... 文 |姑苏九歌 编辑 |姑苏九歌 最近科技圈都在聊一个事儿,AI竞争变味了。 以前大伙儿比的是代码谁...
谢赛宁REPA得到大幅改进,只... 来源:市场资讯 (来源:机器之心Pro) 机器之心报道 编辑:Panda 邹忌曾经有一个问题:吾与...
半年融资超200亿!但70%机... 来源:IT时报 具身智能不再只唱“独角戏” 作者/ IT时报 孙永会 编辑/ 郝俊慧 孙妍 智元和...
为何艾滋病如此难以根治?HIV... 在人类与病毒的漫长战争中,人类免疫缺陷病毒(HIV)以其独特而狡猾的生存策略,成为我们迄今仍未完全攻...
总投资超1亿元!深圳理工大学牵... 南都讯 记者伍曼娜近日,深圳市发展和改革委员会正式批复2025年第一批战略性新兴产业扶持计划拟资助项...
夜景拍照最清晰的手机盘点:20... 在2025年的手机市场上,夜景拍摄能力已经成为衡量一款手机影像实力的重要标准。本文将为大家盘点五款在...
盐城射阳:税惠“活水”润泽创新 中新网江苏新闻12月15日电(刘亚菲)在射阳港经济开发区,盐城海普润科技股份有限公司(简称“海普润”...
赛意信息牵头承担国家科技重大专... 赛意信息(300687)12月14日公告,近日,公司收到国家主管部门下发的《关于智能制造系统和机器人...
vivo手机哪款性价比最高最值... 最新销量数据显示,vivo X200系列全系销量已接近460万台,成为vivo史上最畅销的旗舰系列。...
Windows 11什么配置才... 快科技12月15日消息,近日微软发布了一份官方指南,介绍了针对2026年Windows 11平台的游...
将强制执行!速看最新要求→ 为解决消费者 关于旧手机、旧电脑等电子产品 进入回收渠道 个人信息没有被有效清除的担忧 近日 强制性...
2025年大流量卡办理全攻略:... 办卡关注 微 信 公 众 号 :找卡乐园 这里是专为你打造的流量卡服务站,既能帮你揭开流量卡市场的各...
曝小米等厂商中端机型价格上涨 ... 【CNMO科技消息】12月15日,数码博主“数码闲聊站”发文称,小米部分在售平板产品已涨价,涨幅在1...
每周工作动态丨速览(12月8日... 一周工作动态 12月8日—12月14日 01 ▶2025腾冲科学家论坛背后的“卫健力量” 2025...