音频 LDM 2：使用自监督预训练学习整体音频生成

Aug, 2023

音频 LDM 2：使用自监督预训练学习整体音频生成

AudioLDM 2: Learning Holistic Audio Generation with Self-supervised Pretraining

Haohe Liu, Qiao Tian, Yi Yuan, Xubo Liu, Xinhao Mei...

TL;DR该研究提出了一个框架，使用相同的学习方法进行语音、音乐和音效生成，引入了一种名为 “语言音频（LOA）” 的音频通用表示，并通过 AudioMAE 和潜在扩散模型进行自监督训练，实现了在文本到音频、文本到音乐和文本到语音等任务上的最先进性能。

Abstract

Although audio generation shares commonalities across different types of audio, such as speech, music, and sound effects, designing models for each type requires careful consideration of specific objectives and biases that can significantly differ from those of other types. To bring us

audio generation language of audio self-supervised learning latent diffusion model state-of-the-art performance

发现论文，激发创造

AudioLM：一种语言建模方法用于音频生成

AudioLM 是一个高质量的音频生成框架，它通过将输入音频映射为离散令牌序列，并在该表示空间中将音频生成视为一种语言建模任务。我们提出了一种混合标记方案，以实现重建质量和长期结构两个目标，并通过大量的音频波形语料库进行了训练，使其可以生成自然，连贯的音频持续时间。不需要文件、笔录或注释，同时对未见过的讲话者也可以维持其语法和语义合理的音频持续时间。此外，我们还展示了如何通过生成连贯的钢琴音乐持续时间，超越了语音。

Sep, 2022

AudioLDM：使用潜在扩散模型进行文本到音频生成

本文介绍了一种基于潜在空间的 Text-to-audio（TTA）系统 AudioLDM，它使用对比语音 - 语言预训练（CLAP）潜在信息学习连续音频表示，并以文本嵌入作为采样条件，从而在生成质量和计算效率方面具有优势，实测效果接近官方记录，并可以进行零 - shot 文本引导音频操作，如风格转移。

Jan, 2023

多模态自监督学习通用音频表示

通过使用多模态框架，在训练音频表征时利用视频信息和加入混合样本的数据增强，本研究的对比学习框架成功地实现了在非语义音频任务上的领先水平。

Apr, 2021

利用预训练的 AudioLDM 实现文本到语音生成：基准研究

本文探讨了使用预先训练的 AudioLDM 模型作为声音生成的 “骨架” 在小数据量场景下实现优异表现的优势，并且比较了不同训练策略对模型性能的影响。同时，为了促进未来的研究，我们还在几个常用数据集上评估了各种文本生成语音系统，以允许公平比较和基准测试这些方法。

Mar, 2023

AudioGPT：理解与生成语音、音乐、声音和说话人头像

本文提出了一种名为 AudioGPT 的多模 AI 系统，该系统结合了基础模型来处理复杂的音频信息和解决许多理解和生成任务，以及支持口语对话的输入 / 输出接口（ASR，TTS），并通过一系列实验证明了 AudioGPT 在多轮对话中具有语音、音乐、声音和对话理解和生成任务的能力。

Apr, 2023

通用音频表示的对比学习

COLA 是一种基于对比学习的自监督预训练方法，用于学习音频的通用表示，通过在大规模的 Audioset 数据库上进行预训练，使得其在包括语音、音乐、动物声音和声学场景等 9 项分类任务中性能显著优于之前的自监督系统，并进一步通过消融研究指出了关键的设计选择。

Oct, 2020

AudioGen: 基于文本指导的音频生成

本文提出了一种基于文本输入生成音频的生成模型，使用数据增强技术和多流建模来减轻音频生成中的诸多挑战，包括文本注释的稀缺性、高保真音频编码和多个音频源的难以分辨等，并实现了比其他基准模型更好的音频生成效果。

Sep, 2022

使用指令调整的 LLM 和潜在扩散模型生成文本到语音

本研究采用基于指令调整的大型语言模型 Flan-T5 作为文本编码器，通过使用基于声音压力级的声音混合来进行训练集增强，从而取得了比 AudioLDM 更好的结果，成为了生成文字描述音频的任务中的最佳选择。

Apr, 2023

检索辅助文本转语音生成

我们提出了一种用于文本到音频生成的简单的检索增强方法，通过使用检索到的音频文本数据对 TTA 模型的学习进行指导，从而改善了 AudioLDM 模型在长尾数据集上的性能，在 AudioCaps 数据集上，我们的改进模型 Re-AudioLDM 以巨大的优势超越了现有方法，能够生成逼真的音频并具备在复杂场景、罕见音频类别甚至未见过音频类型的潜力。

Sep, 2023

从原始音频生成口语语言模型

本篇论文介绍了一种新的学习语言的方法，通过原始音频数据及一套度量标准来自动评估学习后的音声和语言表征，为无监督下的基于文本的生成模型提供了一种替代方法。

Feb, 2021