利用预训练的 AudioLDM 实现文本到语音生成：基准研究

Mar, 2023

利用预训练的 AudioLDM 实现文本到语音生成：基准研究

Leveraging Pre-trained AudioLDM for Text to Sound Generation: A Benchmark Study

Yi Yuan, Haohe Liu, Jinhua Liang, Xubo Liu, Mark D. Plumbley...

TL;DR本文探讨了使用预先训练的 AudioLDM 模型作为声音生成的 “骨架” 在小数据量场景下实现优异表现的优势，并且比较了不同训练策略对模型性能的影响。同时，为了促进未来的研究，我们还在几个常用数据集上评估了各种文本生成语音系统，以允许公平比较和基准测试这些方法。

Abstract

deep neural networks have recently achieved breakthroughs in sound generation with text prompts. Despite their promising performance, current text-to-sound generation models face issues on small-scale datasets (e

deep neural networks sound generation text-to-audio generation pre-trained models training strategies

发现论文，激发创造

AudioLDM：使用潜在扩散模型进行文本到音频生成

本文介绍了一种基于潜在空间的 Text-to-audio（TTA）系统 AudioLDM，它使用对比语音 - 语言预训练（CLAP）潜在信息学习连续音频表示，并以文本嵌入作为采样条件，从而在生成质量和计算效率方面具有优势，实测效果接近官方记录，并可以进行零 - shot 文本引导音频操作，如风格转移。

Jan, 2023

使用指令调整的 LLM 和潜在扩散模型生成文本到语音

本研究采用基于指令调整的大型语言模型 Flan-T5 作为文本编码器，通过使用基于声音压力级的声音混合来进行训练集增强，从而取得了比 AudioLDM 更好的结果，成为了生成文字描述音频的任务中的最佳选择。

Apr, 2023

检索辅助文本转语音生成

我们提出了一种用于文本到音频生成的简单的检索增强方法，通过使用检索到的音频文本数据对 TTA 模型的学习进行指导，从而改善了 AudioLDM 模型在长尾数据集上的性能，在 AudioCaps 数据集上，我们的改进模型 Re-AudioLDM 以巨大的优势超越了现有方法，能够生成逼真的音频并具备在复杂场景、罕见音频类别甚至未见过音频类型的潜力。

Sep, 2023

VoiceLDM：具有环境上下文的文本转语音

VoiceLDM 是一个基于潜在扩散模型的文本到音频模型，通过结合描述提示和内容提示，能够生成与输入条件对齐的逼真音频，并展示了在语音智力测试集上甚至超过参考音频的结果，同时还探索了 VoiceLDM 的文本到语音和零样本文本到音频的能力。

Sep, 2023

音频 LDM 2：使用自监督预训练学习整体音频生成

该研究提出了一个框架，使用相同的学习方法进行语音、音乐和音效生成，引入了一种名为 “语言音频（LOA）” 的音频通用表示，并通过 AudioMAE 和潜在扩散模型进行自监督训练，实现了在文本到音频、文本到音乐和文本到语音等任务上的最先进性能。

Aug, 2023

文本和语音嵌入匹配：探索基于迁移学习的语音检索策略

本文研究了预训练的深度学习模型在跨模态（文字到音频）检索中的应用，使用浅层神经网络将提取的嵌入映射到公共维度，并探究优化模型的先前培训方法和损失函数选择的重要性。

Oct, 2022

基于潜在扩散模型的文本驱动 Foley 声音生成

本研究提出了一种基于扩散模型的 Foley 声音生成系统，该系统使用文本条件进行预测。通过使用 CLAP 技术的迁移学习，将该模型初始化地进行了预训练，以缓解数据不足问题。实验结果表明，该方法显着提高了声音生成性能，使得该系统在 DCASE Challenge 2023 任务 7 中排名第一。

Jun, 2023

MusicLDM: 使用节奏同步混合策略增强文本生成音乐中的新颖性

通过构建一种文本到音乐模型，并利用分布式扩散模型和音频广义线性模型来进行训练以生成新音乐，解决了音乐生成过程中的数据不足、版权和抄袭等问题。同时通过节拍跟踪和两种不同的数据增强策略，即拍子同步音频混合和拍子同步潜在混合，实现对训练数据的重组，从而生成多样化且保持风格一致的音乐。最终，通过基于对比语音 - 音频预训练模型的评估指标，进一步证明了所提出的音乐生成模型和拍子同步混合策略能够提高生成音乐的质量、创新性和与输入文本的对应关系。

Aug, 2023

使用音频启动大型语言模型进行通用语音摘要

利用大型语言模型的处理和推理能力，我们引入了一个语音摘要的框架。该框架结合了经过调整的指令型语言模型和将语音转换为令牌表示的音频编码器，以使语言模型能够解释语音输入，并可根据输入模态产生一致的响应。与先前的方法不同，我们的方法能摘要任意领域的口述内容，并通过变化语言模型提示策略产生不同风格的摘要，实验证明我们的方法优于基于语音识别和语言模型的级联基线模型。

Jun, 2024

Tango 2：通过直接偏好优化对齐基于扩散的文本到音频生成

研究使用 diffusion-DPO（直接偏好优化）损失在偏好数据集上对 Tango 文本到音频模型进行微调，以改进音频生成性能，并且在自动和手动评估指标上显示出优于 Tango 和 AudioLDM2 的效果。

Apr, 2024