Aug, 2023

音频 LDM 2:使用自监督预训练学习整体音频生成

TL;DR该研究提出了一个框架,使用相同的学习方法进行语音、音乐和音效生成,引入了一种名为 “语言音频(LOA)” 的音频通用表示,并通过 AudioMAE 和潜在扩散模型进行自监督训练,实现了在文本到音频、文本到音乐和文本到语音等任务上的最先进性能。