Moûsai: 长上下文潜在扩散的文本生成音乐
通过对长时态上下文的生成模型进行训练,我们展示了可以产生长达 4 分 45 秒的音乐的可能性。我们的模型是在高度降采样的连续潜在表示(潜在速率为 21.5Hz)上操作的扩散变换器,根据音频质量和提示对齐的指标获得了最先进的生成结果,主观测试表明它能产生具有连贯结构的完整音乐。
Apr, 2024
通过操纵潜空间并添加额外限制,本研究介绍了一种新颖方法来编辑文本生成的音乐,实现修改特定属性(如体裁、情绪和乐器),同时保持其他方面的不变。实验结果表明,在风格和音色转移评估中,与零样本和某些监督基线相比,我们的方法表现出卓越的性能。此外,我们展示了本方法在真实音乐编辑场景中的实际适用性。
Feb, 2024
本文提出了一种使用扩散模型的文本到音频波形音乐生成模型,通过收集匹配的文本 - 音乐数据集,证明了自由格式文本提示的有效性,提高了波形产生的相关性,并且其生成的音乐优于以往的作品,具有更高的多样性、质量和文本 - 音乐相关性。
Feb, 2023
我们展示了如何从扩散模型中进行条件生成,以解决音乐制作中的各种现实任务,包括音乐音频的延续、修复和再生,不同音乐轨道之间的平滑过渡以及将样式特征传递给现有音频片段。
Nov, 2023
JEN-1 是一个通用高保真度的文本到音乐生成模型,通过整合自回归和非自回归训练技术,并且通过上下文学习实现文本引导的音乐生成、音乐修复和延续等多种生成任务,相对于先前的方法,在文本与音乐对齐、音乐质量和计算效率方面展现出优越的性能。
Aug, 2023
介绍了基于深度生成模型的音乐生成方法 Diff-A-Riff,可通过音频参考、文本提示或两者控制,生成适应任何音乐背景的高质量器乐伴奏,并在 48kHz 伪立体声音频的基础上显著减少推断时间和内存使用。
Jun, 2024
本文提出 DiffVoice,一种基于潜在扩散的文本转语音模型。在 LJSpeech 和 LibriTTS 数据集上的主观评价表明,我们的方法在自然度方面优于当前公开可用的最佳系统,并且通过采用最近的生成逆问题解决算法,DiffVoice 在基于文本的语音编辑和零样本适应方面实现了最先进的性能。
Apr, 2023