基于扩散模型的文本生成音乐技术 ERNIE-Music
本研究探索了扩散模型在生成音乐方面的潜力,提出了一种级联的潜在扩散方法来根据文本描述生成高质量的立体声音乐,同时开源相关代码和音频样本以促进领域内未来研究。
Jan, 2023
调查了在 few-shot 设置中对文本到音乐扩散模型进行个性化的工作。首次探索了将预训练的文本到音频扩散器与两种常用的个性化方法结合的组合。实验了音频特定数据增强对系统整体性能的影响,并评估了不同的训练策略。构建了一个包含提示和音乐片段的新数据集进行评估,使用基于嵌入和基于音乐的量化评估指标,以及用户研究进行定性评估。分析表明相似度度量与用户偏好一致,并且当前的个性化方法更容易学习到节奏音乐结构而非旋律。该研究的代码、数据集和示例资料对研究社区开放。
Sep, 2023
通过操纵潜空间并添加额外限制,本研究介绍了一种新颖方法来编辑文本生成的音乐,实现修改特定属性(如体裁、情绪和乐器),同时保持其他方面的不变。实验结果表明,在风格和音色转移评估中,与零样本和某些监督基线相比,我们的方法表现出卓越的性能。此外,我们展示了本方法在真实音乐编辑场景中的实际适用性。
Feb, 2024
JEN-1 是一个通用高保真度的文本到音乐生成模型,通过整合自回归和非自回归训练技术,并且通过上下文学习实现文本引导的音乐生成、音乐修复和延续等多种生成任务,相对于先前的方法,在文本与音乐对齐、音乐质量和计算效率方面展现出优越的性能。
Aug, 2023
本研究提出了一种基于非自回归解码器、矢量量化变分自编码器、谱图及声码器的文本到声音生成框架,在声音生成效果和速度方面较传统的自回归解码器都有较大的提升。
Jul, 2022
本文介绍了 DiffWave,这是一种用于条件和非条件波形生成的多功能扩散概率模型。该模型高效地通过 Markov 链将白噪声信号转化为结构化波形,并通过特定的数据似然变分界限进行优化训练。DiffWave 在各种波形生成任务中均能生成高保真度音频,并在音频质量方面显著优于其他自回归和 GAN-based 波形模型。
Sep, 2020
研究使用 diffusion-DPO(直接偏好优化)损失在偏好数据集上对 Tango 文本到音频模型进行微调,以改进音频生成性能,并且在自动和手动评估指标上显示出优于 Tango 和 AudioLDM2 的效果。
Apr, 2024
本研究提出了一种基于扩散模型的 Foley 声音生成系统,该系统使用文本条件进行预测。通过使用 CLAP 技术的迁移学习,将该模型初始化地进行了预训练,以缓解数据不足问题。实验结果表明,该方法显着提高了声音生成性能,使得该系统在 DCASE Challenge 2023 任务 7 中排名第一。
Jun, 2023