用MoE打造DNA基础模型更强范式!人大实现seq2func全新突破
创始人
2025-07-11 15:41:10
0

新智元报道

编辑:LRST

【新智元导读】中国人民大学高瓴人工智能学院的研究团队提出通过创新模型架构来提升性能,其SPACE模型引入新架构,提升了DNA基础模型的性能与泛化能力,在多项测试中表现优异。

Sequence-to-function模型是一类强大的基因组模型,能够直接从DNA序列预测对应的功能特征,如染色质开放性、基因表达量、DNA剪切位点等。其中最具代表性的工作是2021年发表在Nature Methods的Enformer[1]。

近日,谷歌DeepMind发布的AlphaGenome[2]模型取得了重要突破,将前身Enformer的输入序列长度扩展至1Mb,引入了剪切强度、DNA三维接触图等一系列新的训练任务,并实现了单碱基精度预测。

AlphaGenome在众多基因组预测任务上达到了当前SOTA性能,再次证明了数据扩展在基因组学建模中的巨大潜力,同时也证明了sequence-to-function model这种有监督训练范式学习到的表征的巨大潜力。

然而,单纯的数据扩展并非提升模型能力的唯一路径。

来自中国人民大学高瓴人工智能学院的研究团队提出了一个重要的替代思路:通过对模型架构进行符合生物学原理的系统性创新,可以更高效地提升DNA基础模型的性能与泛化能力。

论文链接:https://arxiv.org/abs/2506.01833

Github链接: https://github.com/ZhuJiwei111/space

Huggingface链接: https://huggingface.co/yangyz1230/space

自适应协作专家

Enformer和AlphaGenome设计范式存在两个内在的架构性制约:

1. 物种共享编码器的局限性

这种「一视同仁」的编码器难以有效区分并建模不同物种间基因调控的特有模式(species-specific characteristics)与进化上的保守机制 。

2. 独立预测头的知识割裂

基因组的功能图谱,如染色质可及性、组蛋白修饰和转录因子结合,在生物学上是高度关联和协同作用的。

独立的预测头无法捕捉这些图谱间的内在依赖关系,从而限制了模型对复杂基因调控网络的深层理解 。

图1:SPACE模型架构总览。 模型包含三个核心阶段:(1) 基于CNN的局部上下文聚合模块;(2) 引入物种感知混合专家(MoE)的Transformer编码器;(3) 引入谱系分组和双层门控机制的增强型解码器

为了应对上述挑战,SPACE模型引入了两项关键的架构革新:

物种感知编码器 (Species-aware Encoder)

在Transformer编码器中部署了稀疏混合专家(MoE)层,以替代标准的前馈网络 。

该模块由一个共享的「专家」网络池和多个物种特异性的「门控网络」组成,对于来自特定物种的DNA序列,其对应的门控网络会动态地选择并加权激活一部分专家网络进行计算 。

这种设计使得模型能自适应地为不同物种分配不同的计算资源和参数路径,从而有效解耦并学习物种间的特有及共享调控特征。

此外,还引入了专家-物种互信息损失函数,以鼓励专家网络向物种特异化的方向分化 。

谱系分组增强解码器 (Profile-grouped Enhancement Decoder)

在解码阶段,依据生物学先验知识将功能相关的基因组图谱(如测量染色质可及性的DNase-seq和ATAC-seq)进行分组。

在此基础上,一个新颖的双层门控专家加权聚合模块被用于增强初始预测 。

第一层门控根据物种和序列的全局信息,动态选择最相关的「专家组」,以捕捉进化上的保守调控模式 。

第二层门控则在选定的专家组内部,根据各图谱的初步预测特征,为每个图谱精确选择并加权最合适的专家,从而建模图谱间的功能依赖性 。

最终,增强后的预测结果通过残差连接与初始预测融合,确保了训练的稳定性和预测的精确性 。

实验结果

在多个公认的基因组学基准上,对SPACE模型的性能进行了全面和严格的评估。

下游基因组任务基准测试

研究人员在Nucleotide Transformer (NT) 论文提出的一套包含18项下游分类任务的基准上,将SPACE与多个主流DNA基础模型进行了比较。

实验结果表明,SPACE模型在18项任务中的11项上取得了当前最佳(SOTA)性能,显著优于包括DNABERT-2、HyenaDNA以及NT系列在内的无监督预训练模型,也一致性地超越了其监督学习的基线模型Enformer。

这一结果强有力地支持了核心论点:一个架构设计优良的监督式预测模型,其学到的序列表示(representation)具有强大的泛化能力,可以作为一个高效的DNA基础模型。

图2:在Nucleotide Transformer下游任务中的性能比较(MCC分数)。 表格展示了SPACE与多个基准模型在18项任务上的表现。加粗字体表示该任务上的最优性能。SPACE在11项任务中达到SOTA

跨物种泛化能力评估

为了直接评估SPACE架构改进对模型跨物种泛化能力的影响,研究人员在GUE基准上进行了测试,特意选择了与模型训练物种(人、鼠)进化距离较远的酵母(10项表观遗传标记预测任务)和病毒(COVID变种分类任务)进行评估。

图3:在GUE基准上与Enformer的跨物种泛化能力比较。 SPACE在所有酵母和病毒预测任务上的性能(MCC或F1分数)均显著高于Enformer,向上箭头(↑)后的数值表示SPACE的绝对性能提升点数

与同样使用人鼠数据进行预训练的Enformer相比,SPACE在所有11项跨物种预测任务上均取得了显著的性能提升。

尤其是在酵母的H3K4me3标记预测任务上,SPACE的性能相较于Enformer提升了27.28个百分点,充分证明提出物种感知MoE编码器等架构在捕捉和迁移进化上保守的调控特征方面的有效性 。

总结

AlphaGenome展示了「数据规模为王」的强大潜力之际,SPACE模型提供了另一条同样富有前景的技术路径:通过引入符合生物学原理的、动态自适应的先进架构,可以更深刻、更高效地捕捉DNA序列中的复杂调控语言。

有理由相信,这种将架构设计与生物学洞见深度融合的研究范式,将为未来构建更强大、更具解释性的基因组学AI模型铺平道路。

参考资料:

[1] Avsec, Žiga, et al. "Effective gene expression prediction from sequence by integrating long-range interactions." Nature methods 18.10 (2021): 1196-1203.

[2] Avsec, Žiga et al. "AlphaGenome: advancing regulatory variant effect prediction with a unified DNA sequence model." DeepMind (2025).

相关内容

热门资讯

联想天禧AI闪耀吴晓波科技人文... AI的曙光划破时代苍穹,人类正伫立在生产力革新与交互体验重构的十字路口,迫切追寻能驾驭未来生活的密钥...
资阳市科协“科服保姆”精准搭桥... 为精准对接科技工作者需求,推动产学研用深度融合,近日,在资阳市科协“科服保姆”的陪同下,资阳口腔职业...
泰安联通:以考促练砺精兵,筑牢... 近日,泰安联通成功举办接入网固网专业高技能人才实操考试。以“匠心锤炼铸精兵,实战砺剑保畅通”为核心,...
专家把脉深井观测 助力常德地震... 近日,中国地震局地球物理研究所专家团队赴常德市地震局,围绕深井野外科研站建设、运行与科研合作开展深入...
人工智能助数字乡村升级 加快推动数字乡村建设是顺应技术变革趋势、重塑乡村发展格局的战略选择。当前,我国已建成覆盖城乡的数字基...
青岛华青教育集团:构建校本大模... 12月29日,“学习强国”平台以《青岛华青教育集团:构建校本大模型,重塑教育新生态》为题,报道华青教...
“中国之光”宇树机器人的演示视... 刷到特斯拉Cybertruck首席工程师发的宇树G1测试视频,我直接笑出声音。本来是机器人跟工程师同...
来自奥尔特曼的请求:飞机引擎爆... 人工智能(AI)数据中心接入电网时间过长,这个问题怎么破? 近期的一系列动态显示,数据中心开发商正转...
苏州策马机电取得梯度线圈固化补... 国家知识产权局信息显示,苏州策马机电科技有限公司取得一项名为“一种梯度线圈固化补胶桶”的专利,授权公...
韦德布什分析师警告:这12家科... 来源:商业周刊 随着人工智能改变经济格局并创造新的赢家,那些不能足够快地采用这项技术的公司将面临被淘...
触乐怪话:何为邪恶 触乐怪话,每天胡侃和游戏有关的屁事、鬼事、新鲜事。 救救小罗!(图/小罗) 趁着前段时间的冬季大...
“韧性生长”成为2025年中国... 中新网上海12月29日电(杨海燕 李秋莹)2025年,在高速流动的时代语境中,不确定性成为常态。当代...
山东枣庄:文化消费有了新场景 走进山东省枣庄市薛城区的一家文旅田园,草莓果汁、草莓果酱、草莓甜品等草莓衍生制品种类多样,传统非遗体...
GEO优化服务哪家强?评测榜单... 当AI搜索正在重塑内容分发的逻辑,你的网站和自媒体内容是否还能被精准推荐?在生成式AI(如豆包、De...
接入人脑,正在中国悄悄爆发 校对 | 朝乾 夏虫 编辑 | 桐 前几天,马斯克抛出一个极具争议的预测:人类能在20年内将意识数字...
盛视科技:以存算一体架构,定义... 在 550 亿美元规模的全球机器人产业赛道上,技术迭代正成为企业突围的核心密码。传统机器人 “存储 ...
数字金融是新基建的重要引擎 当前,新一代技术革命与产业变革交织,新型基础设施建设(以下简称“新基建”)是构筑数字时代竞争新优势的...
「原神☆FES 」2026正式... 大家好,欢迎收看未来热点全知道的“热点预告”。 在这里你将能看到未来一周游戏圈的各项动态,本周我们将...
原创 《... 在《铃兰之剑为这和平的世界》这款游戏中,这位角色“特莉丝”是一位传奇女术士,许多玩家都不了解要怎么帮...
第42次南极考察丨“雪龙”号抵... 执行中国第42次南极考察任务的“雪龙”号极地科考破冰船于北京时间29日顺利抵达秦岭站海域,并开展卸货...