10秒生成4分钟音乐，8GB显存就能跑！已登Hugging Face趋势榜一_游戏资讯

创始人

2025-03-12 14:01:06

0次

新智元报道

编辑：LRST

【新智元导读】DiffRhythm是一款新型AI音乐生成模型，能在10秒内生成长达4分45秒的完整歌曲，包含人声和伴奏。它采用简单高效的全diffusion架构，仅需歌词和风格提示即可创作，还支持本地部署，最低只需8G显存。

音乐创作，尤其是完整歌曲的生成，一直是人工智能领域的一大挑战。

Suno、Udio等商用音乐生成大模型展现出惊人的音乐生成能力。但现有开源的音乐生成模型要么只能生成人声或伴奏，要么依赖复杂的多阶段架构，难以扩展到长音频生成。

而现在，AI音乐破局时刻到了！

近日，西北工业大学音频语音与语言处理实验室（ASLP@NPU）和香港中文大学（深圳）的研究团队提出了一种名为DiffRhythm（中文名：谛韵）的新型音乐生成AI模型，全diffusion架构，它能够在短短10秒内生成长达4分45秒的不同风格完整双轨高保真歌曲，包含人声和伴奏！

最低仅需8G显存，可本地部署到消费级显卡！

在线Demo: https://huggingface.co/spaces/ASLP-lab/DiffRhythm

Paper: https://arxiv.org/abs/2503.01183

Github: https://github.com/ASLP-lab/DiffRhythm

Hugging Face: https://huggingface.co/ASLP-lab/DiffRhythm-base

这一成果不仅刷新了音乐生成的速度，还大大简化了生成流程，让音乐创作变得更加高效和便捷。模型完全采用华为昇腾910B训练，同时支持N卡。

目前模型和推理代码全部开源。开源短短几天位列Hugging Face Space趋势榜第一和总榜第五，受到众多网友和音乐爱好者广泛好评。

DiffRhythm：简单、快速、高质量

DiffRhythm 的核心优势在于它的简洁性和高效性。在模型方面它摒弃了复杂的多阶段架构，采用了一个简单的基于LLaMA的DiT，只需要歌词和风格提示即可生成歌曲。

这种非自回归结构确保了快速的推理速度，相比现有的语言模型方法，DiffRhythm的速度提升显著，更适合实时应用和用户交互。在数据方面，仅需音频与对应歌词，无需复杂数据处理标注流程，易于scale up到大数据。

DiffRhythm以歌词和风格提示输入，生成44.1kHz采样率全长立体声音乐作品（最长4分45秒）。

DiffRhythm由两个顺序训练的模型组成：1) 变分自编码器 (VAE)，学习音频波形的紧凑潜在表示，使得分钟级长音频建模成为可能；2) DiT 建模 VAE 的潜在空间，通过迭代去噪生成歌曲。

句级歌词对齐

在歌曲生成中，歌词与歌声的对齐是一个极具挑战性的问题，可以概括为以下两个方面：

为了解决这些问题，DiffRhythm 提出了一种句子级对齐机制。具体来说，该机制仅依赖于句子起始时间的标注，通过以下步骤实现歌词与歌声的对齐：

句子分割与音素转换：首先，将歌词按照句子分割，并通过 Grapheme-to-Phoneme (G2P) 转换将每个句子转换为音素序列。
初始化潜在序列：创建一个与潜在表示长度相同的序列，并用填充符号（）初始化。
对齐音素与潜在表示：根据歌词句子的起始时间戳，将音素序列映射到潜在表示的对应位置。例如，如果一个句子的起始时间是 10 秒，那么对应的音素序列将被放置在潜在表示的第 10 秒位置。

通过这种方式，DiffRhythm 只需要句子起始时间的标注，即可实现歌词与歌声的对齐。

压缩鲁棒VAE

考虑到大量歌曲数据都以压缩后的MP3格式存在，而高频细节在压缩过程中会受到损害，我们采用数据增强来赋予VAE修复功能。

具体来说，VAE以无损FLAC格式数据进行训练，其中输入经过MP3压缩，而重建目标仍然是原始无损数据。通过这种有损到无损的重建过程，VAE学会将从有损压缩数据中得出的潜在表示解码回无损音频信号。

📊 实验结果

DiffRhythm的表现令人印象深刻。在音频重建方面，它在无损和有损压缩条件下都优于现有的基线模型。

在可视化分析中，可以看到DiffRhythm VAE可以有效修复MP3压缩损失

在歌曲生成方面，DiffRhythm的生成歌曲在音质、音乐性和歌词可理解性上都表现出色，与现有的SongLM模型相比，DiffRhythm的歌词清晰度更高，推理速度更快。

未来展望

尽管DiffRhythm已经可以快速生成整首歌曲，但仍有进一步优化的空间。例如，未来可能会通过在训练中引入随机掩码来支持对生成歌曲的特定片段进行编辑。

此外，DiffRhythm 未来可能会引入自然语言条件机制，以实现更精细的风格控制，从而无需依赖音频参考。

参考资料：

https://arxiv.org/abs/2503.01183