May, 2023

Make-An-Audio 2:时间增强的文本转音频生成

TL;DR该论文提出了基于潜在扩散的 T2A 方法 ——Make-an-Audio 2,通过使用预训练的大型语言模型,设计了一些技术来提高语义一致性和时间一致性,并利用 LLMs 将大量音频标签数据变成音频 - 文本数据集。实验证明,该方法在客观指标和主观指标上均优于基线模型,并在时间信息理解、语义一致性和音质方面取得了显著进展。