10秒生成4分钟音乐,8GB显存就能跑!已登Hugging Face趋势榜一
创始人
2025-03-12 14:01:06
0

新智元报道

编辑:LRST

【新智元导读】DiffRhythm是一款新型AI音乐生成模型,能在10秒内生成长达4分45秒的完整歌曲,包含人声和伴奏。它采用简单高效的全diffusion架构,仅需歌词和风格提示即可创作,还支持本地部署,最低只需8G显存。

音乐创作,尤其是完整歌曲的生成,一直是人工智能领域的一大挑战。

Suno、Udio等商用音乐生成大模型展现出惊人的音乐生成能力。但现有开源的音乐生成模型要么只能生成人声或伴奏,要么依赖复杂的多阶段架构,难以扩展到长音频生成。

而现在,AI音乐破局时刻到了!

近日,西北工业大学音频语音与语言处理实验室(ASLP@NPU)和香港中文大学(深圳)的研究团队提出了一种名为DiffRhythm(中文名:谛韵)的新型音乐生成AI模型,全diffusion架构,它能够在短短10秒内生成长达4分45秒的不同风格完整双轨高保真歌曲,包含人声和伴奏!

最低仅需8G显存,可本地部署到消费级显卡!

在线Demo: https://huggingface.co/spaces/ASLP-lab/DiffRhythm

Paper: https://arxiv.org/abs/2503.01183

Github: https://github.com/ASLP-lab/DiffRhythm

Hugging Face: https://huggingface.co/ASLP-lab/DiffRhythm-base

这一成果不仅刷新了音乐生成的速度,还大大简化了生成流程,让音乐创作变得更加高效和便捷。模型完全采用华为昇腾910B训练,同时支持N卡。

目前模型和推理代码全部开源。开源短短几天位列Hugging Face Space趋势榜第一和总榜第五,受到众多网友和音乐爱好者广泛好评。

DiffRhythm:简单、快速、高质量

DiffRhythm 的核心优势在于它的简洁性和高效性。在模型方面它摒弃了复杂的多阶段架构,采用了一个简单的基于LLaMA的DiT,只需要歌词和风格提示即可生成歌曲。

这种非自回归结构确保了快速的推理速度,相比现有的语言模型方法,DiffRhythm的速度提升显著,更适合实时应用和用户交互。在数据方面,仅需音频与对应歌词,无需复杂数据处理标注流程,易于scale up到大数据。

DiffRhythm以歌词和风格提示输入,生成44.1kHz采样率全长立体声音乐作品(最长4分45秒)。

DiffRhythm由两个顺序训练的模型组成:1) 变分自编码器 (VAE),学习音频波形的紧凑潜在表示,使得分钟级长音频建模成为可能;2) DiT 建模 VAE 的潜在空间,通过迭代去噪生成歌曲。

句级歌词对齐

在歌曲生成中,歌词与歌声的对齐是一个极具挑战性的问题,可以概括为以下两个方面:

  1. 时间上的不连续性:歌词中的句子之间往往存在较长的间隔,这些间隔可能是纯音乐部分,导致歌词与歌声之间的时间对应关系不连续。

  2. 伴奏的干扰:相同的一个字,在不同歌曲中的伴奏不同,唱法也不同,这使得歌声的对齐更加复杂。

为了解决这些问题,DiffRhythm 提出了一种句子级对齐机制。具体来说,该机制仅依赖于句子起始时间的标注,通过以下步骤实现歌词与歌声的对齐:

  1. 句子分割与音素转换:首先,将歌词按照句子分割,并通过 Grapheme-to-Phoneme (G2P) 转换将每个句子转换为音素序列。

  2. 初始化潜在序列:创建一个与潜在表示长度相同的序列,并用填充符号()初始化。

  3. 对齐音素与潜在表示:根据歌词句子的起始时间戳,将音素序列映射到潜在表示的对应位置。例如,如果一个句子的起始时间是 10 秒,那么对应的音素序列将被放置在潜在表示的第 10 秒位置。

通过这种方式,DiffRhythm 只需要句子起始时间的标注,即可实现歌词与歌声的对齐。

压缩鲁棒VAE

考虑到大量歌曲数据都以压缩后的MP3格式存在,而高频细节在压缩过程中会受到损害,我们采用数据增强来赋予VAE修复功能。

具体来说,VAE以无损FLAC格式数据进行训练,其中输入经过MP3压缩,而重建目标仍然是原始无损数据。通过这种有损到无损的重建过程,VAE学会将从有损压缩数据中得出的潜在表示解码回无损音频信号。

📊 实验结果

DiffRhythm的表现令人印象深刻。在音频重建方面,它在无损和有损压缩条件下都优于现有的基线模型。

在可视化分析中,可以看到DiffRhythm VAE可以有效修复MP3压缩损失

在歌曲生成方面,DiffRhythm的生成歌曲在音质、音乐性和歌词可理解性上都表现出色,与现有的SongLM模型相比,DiffRhythm的歌词清晰度更高,推理速度更快。

未来展望

尽管DiffRhythm已经可以快速生成整首歌曲,但仍有进一步优化的空间。例如,未来可能会通过在训练中引入随机掩码来支持对生成歌曲的特定片段进行编辑。

此外,DiffRhythm 未来可能会引入自然语言条件机制,以实现更精细的风格控制,从而无需依赖音频参考。

参考资料:

https://arxiv.org/abs/2503.01183

相关内容

热门资讯

中国AI“生态雨林”吸睛世界 中新网安徽新闻8月5日电 在上海世博中心的展厅里,匈牙利大模型研究领军人物GáborPrószéky...
PowerA推出《无主之地4》... IT之家 8 月 5 日消息,外设制造商 PowerA 今天推出了《无主之地 4》游戏联名 Xbox...
原创 H... 还记得两周前黄仁勋访华,不仅不吝赞赏中国AI的发展,还和各路中国企业家大秀关系。期间还传出美国放行英...
国务院常务会议解读丨我国部署深... 31日召开的国务院常务会议,审议通过《关于深入实施“人工智能+”行动的意见》。   人工智能是新一轮...
“网易游戏崩了”冲上热搜,内部... 8月5日上午,网易旗下《阴阳师》《第五人格》《七日世界》《一梦江湖》等多款游戏突发登录异常,“网易游...
从国民手游到3A大作,为什么都... 文章开始前,想先抛个问题给大家: “你试过用手机玩PC游戏吗?”——不是云串流,也不是魔改移植,就是...
还能相信云服务吗?用户存了十年... 近日,一位Ruby开源社区的资深开发者@Seuros 遭遇了令人崩溃的事件:他使用了十年的AWS账户...
VCTCN:前EDG选手S1M... 据爆料消息称,前EDG战队选手S1Mon或将加盟CN赛区次级战队AQ,目标直指CN赛区晋升赛。 S...
没有“大单品”的车企洗洗睡吧 大单品原是快消品行业的概念,指“既能成为顾客的认知锚点,也是利润核心”的商品,更可以称之为零售企业的...
大圣归来!新倩女幽魂特色服新机... 这个炎炎盛夏,新倩女幽魂西游新版本的消息像是一声霹雳,在玩家之间引发了巨大轰动。这次新版本不仅仅推出...
专利侵权?香奈儿被起诉 近日,据外媒报道,美国科技公司Zugara已对奢侈品巨头香奈儿提起诉讼,指控后者侵犯其一项与虚拟彩妆...
原创 明... 在《明末渊虚之羽》中,羽族追忆是提升羽露瓶使用次数的关键道具。玩家需要收集所有羽族追忆以解锁“盈润雨...
天青元储申请直流微网用直流变换... 金融界2025年8月5日消息,国家知识产权局信息显示,无锡天青元储智能科技有限公司申请一项名为“一种...
首个6G机器人实训场在京投用 由中关村泛联移动通信技术创新应用研究院联合中国移动研究院和中国移动北京公司共同打造的6G技术赋能机器...
《冒险岛》端游线下庆典全流程攻... 2025年7月19日,一场只属于“冒险家”的特别聚会将在上海正式启程。这是《冒险岛》端游21周年庆典...
亚马逊考虑为自家AI语音助手植... 据外媒,在近日的财报电话会议上,亚马逊CEO安迪·贾西(Andy Jassy)透露,公司正探索在新一...
原创 金... 在《金铲铲之战》S15赛季的PVE玩法“发条鸟的试炼”中,合理搭配阵容与强化选择是通关关键。小编带来...
原创 原... 在《原神》5.8版本“悠悠度假村”中,玩家可使用阿夏进行物体涂色。部分颜料需通过完成指定任务解锁,下...