使用指令调整的 LLM 和潜在扩散模型生成文本到语音

Apr, 2023

使用指令调整的 LLM 和潜在扩散模型生成文本到语音

Text-to-Audio Generation using Instruction-Tuned LLM and Latent Diffusion Model

Deepanway Ghosal, Navonil Majumder, Ambuj Mehrish, Soujanya Poria

TL;DR本研究采用基于指令调整的大型语言模型 Flan-T5 作为文本编码器，通过使用基于声音压力级的声音混合来进行训练集增强，从而取得了比 AudioLDM 更好的结果，成为了生成文字描述音频的任务中的最佳选择。

Abstract

The immense scale of the recent large language models (LLM) allows many interesting properties, such as, instruction- and chain-of-thought-based fine-tuning, that has significantly improved zero- and few-shot performance in many natural language processing (NLP) tasks. Inspired by such

large language models text-to-audio generation instruction-tuned llm latent diffusion model audio pressure level-based sound mixing

发现论文，激发创造

AudioLDM：使用潜在扩散模型进行文本到音频生成

本文介绍了一种基于潜在空间的 Text-to-audio（TTA）系统 AudioLDM，它使用对比语音 - 语言预训练（CLAP）潜在信息学习连续音频表示，并以文本嵌入作为采样条件，从而在生成质量和计算效率方面具有优势，实测效果接近官方记录，并可以进行零 - shot 文本引导音频操作，如风格转移。

Jan, 2023

Make-An-Audio 2：时间增强的文本转音频生成

该论文提出了基于潜在扩散的 T2A 方法 ——Make-an-Audio 2，通过使用预训练的大型语言模型，设计了一些技术来提高语义一致性和时间一致性，并利用 LLMs 将大量音频标签数据变成音频 - 文本数据集。实验证明，该方法在客观指标和主观指标上均优于基线模型，并在时间信息理解、语义一致性和音质方面取得了显著进展。

May, 2023

检索辅助文本转语音生成

我们提出了一种用于文本到音频生成的简单的检索增强方法，通过使用检索到的音频文本数据对 TTA 模型的学习进行指导，从而改善了 AudioLDM 模型在长尾数据集上的性能，在 AudioCaps 数据集上，我们的改进模型 Re-AudioLDM 以巨大的优势超越了现有方法，能够生成逼真的音频并具备在复杂场景、罕见音频类别甚至未见过音频类型的潜力。

Sep, 2023

Tango 2：通过直接偏好优化对齐基于扩散的文本到音频生成

研究使用 diffusion-DPO（直接偏好优化）损失在偏好数据集上对 Tango 文本到音频模型进行微调，以改进音频生成性能，并且在自动和手动评估指标上显示出优于 Tango 和 AudioLDM2 的效果。

Apr, 2024

Auffusion: 利用扩散和大型语言模型提升文本到音频生成的能力

最新的扩散模型和大型语言模型 (LLMs) 在人工智能音频生成 (AIGC) 领域取得了重大进展。然而，现有的 Text-to-Audio (TTA) 研究经常在生成质量和文本音频对齐方面遇到困难，特别是对于复杂的文本输入。本研究通过借鉴最先进的 Text-to-Image (T2I) 扩散模型，引入了一种名为 Auffusion 的 TTA 系统，它通过有效利用其固有的生成能力和精确的跨模态对齐，改进了 TTA 任务的性能。通过客观和主观评估，我们证明了 Auffusion 在使用有限的数据和计算资源时优于先前的 TTA 方法。我们进一步进行了关于交叉模态对齐的全面消融研究和创新的交叉注意力图可视化，对 TTA 中的文本音频对齐进行了深入评估。我们的研究结果揭示了 Auffusion 生成与文本描述准确匹配的音频的卓越能力，这在几个相关任务中得到了进一步的验证，例如音频风格转换、修复和其他操作。我们的实现和演示可在此 https URL 上访问。

Jan, 2024

利用预训练的 AudioLDM 实现文本到语音生成：基准研究

本文探讨了使用预先训练的 AudioLDM 模型作为声音生成的 “骨架” 在小数据量场景下实现优异表现的优势，并且比较了不同训练策略对模型性能的影响。同时，为了促进未来的研究，我们还在几个常用数据集上评估了各种文本生成语音系统，以允许公平比较和基准测试这些方法。

Mar, 2023

用一致性蒸馏加速基于扩散的文本到音频生成

这项研究修改最近提出的一致性蒸馏框架，用于训练只需要单个神经网络查询的 TTA 模型，同时通过在音频空间中使用新的损失函数（如 CLAP 得分）对一致性 TTA 模型进行微调，从而在保留扩散模型高生成质量和多样性的同时，将查询次数减少了 400 倍。

Sep, 2023

DiffAVA: 带视觉对齐的个性化文本到音频生成

该文章提出了一种基于视觉对齐的新型个性化文本转语音生成方法 ——DiffAVA，它使用多头注意力变换器聚合视觉特征的时间信息，并利用双模残差网络将时间视觉表示与文本嵌入进行融合，然后采用对比学习目标来匹配视觉对齐的文本嵌入和音频特征。研究结果表明，DiffAVA 在视觉对齐的文本转音频生成方面具有竞争力的表现。

May, 2023

视频同步的文本到语音生成

近期，研究人员在文本转语音生成方面的关注度不断增加，本研究提出了一个名为 T2AV-Bench 的创新基准和一个简单而有效的视频对齐文本到音频生成模型 T2AV，通过整合视觉对齐的文本嵌入到生成模型中，通过时间多头注意力转换器从视频数据中提取和理解时间细微差异，并通过 Audio-Visual ControlNet 将时态视觉表示与文本嵌入精确地融合，进一步增强集成性，以确保视觉对齐和时间一致性。经过对 AudioCaps 和 T2AV-Bench 的广泛评估，T2AV 在视觉对齐和时间一致性上设立了新的标准。

Mar, 2024

基于潜在扩散模型的文本驱动 Foley 声音生成

本研究提出了一种基于扩散模型的 Foley 声音生成系统，该系统使用文本条件进行预测。通过使用 CLAP 技术的迁移学习，将该模型初始化地进行了预训练，以缓解数据不足问题。实验结果表明，该方法显着提高了声音生成性能，使得该系统在 DCASE Challenge 2023 任务 7 中排名第一。

Jun, 2023