Make-An-Audio 2：时间增强的文本转音频生成

May, 2023

Make-An-Audio 2：时间增强的文本转音频生成

Make-An-Audio 2: Temporal-Enhanced Text-to-Audio Generation

Jiawei Huang, Yi Ren, Rongjie Huang, Dongchao Yang, Zhenhui Ye...

TL;DR该论文提出了基于潜在扩散的 T2A 方法 ——Make-an-Audio 2，通过使用预训练的大型语言模型，设计了一些技术来提高语义一致性和时间一致性，并利用 LLMs 将大量音频标签数据变成音频 - 文本数据集。实验证明，该方法在客观指标和主观指标上均优于基线模型，并在时间信息理解、语义一致性和音质方面取得了显著进展。

Abstract

Large diffusion models have been successful in text-to-audio (T2A) synthesis tasks, but they often suffer from common issues such as semantic misalignment and poor temporal consistency due to limited natural lang

t2a synthesis diffusion models language models temporal consistency semantic alignment

发现论文，激发创造

视频同步的文本到语音生成

近期，研究人员在文本转语音生成方面的关注度不断增加，本研究提出了一个名为 T2AV-Bench 的创新基准和一个简单而有效的视频对齐文本到音频生成模型 T2AV，通过整合视觉对齐的文本嵌入到生成模型中，通过时间多头注意力转换器从视频数据中提取和理解时间细微差异，并通过 Audio-Visual ControlNet 将时态视觉表示与文本嵌入精确地融合，进一步增强集成性，以确保视觉对齐和时间一致性。经过对 AudioCaps 和 T2AV-Bench 的广泛评估，T2AV 在视觉对齐和时间一致性上设立了新的标准。

Mar, 2024

使用指令调整的 LLM 和潜在扩散模型生成文本到语音

本研究采用基于指令调整的大型语言模型 Flan-T5 作为文本编码器，通过使用基于声音压力级的声音混合来进行训练集增强，从而取得了比 AudioLDM 更好的结果，成为了生成文字描述音频的任务中的最佳选择。

Apr, 2023

AADiff: 音频对齐视频生成与文本到图像扩散

本文介绍了一种新的 T2V 框架，通过引入音频信号来控制时间动态，从而使传统的 T2I 扩散生成可以与音频对齐的视频。我们提出了基于音频的区域编辑和信号平滑方法，以在视频综合的时间灵活性和一致性之间取得良好平衡，并通过实验验证了方法的有效性，并提出了实际应用。

May, 2023

AudioLDM：使用潜在扩散模型进行文本到音频生成

本文介绍了一种基于潜在空间的 Text-to-audio（TTA）系统 AudioLDM，它使用对比语音 - 语言预训练（CLAP）潜在信息学习连续音频表示，并以文本嵌入作为采样条件，从而在生成质量和计算效率方面具有优势，实测效果接近官方记录，并可以进行零 - shot 文本引导音频操作，如风格转移。

Jan, 2023

Auffusion: 利用扩散和大型语言模型提升文本到音频生成的能力

最新的扩散模型和大型语言模型 (LLMs) 在人工智能音频生成 (AIGC) 领域取得了重大进展。然而，现有的 Text-to-Audio (TTA) 研究经常在生成质量和文本音频对齐方面遇到困难，特别是对于复杂的文本输入。本研究通过借鉴最先进的 Text-to-Image (T2I) 扩散模型，引入了一种名为 Auffusion 的 TTA 系统，它通过有效利用其固有的生成能力和精确的跨模态对齐，改进了 TTA 任务的性能。通过客观和主观评估，我们证明了 Auffusion 在使用有限的数据和计算资源时优于先前的 TTA 方法。我们进一步进行了关于交叉模态对齐的全面消融研究和创新的交叉注意力图可视化，对 TTA 中的文本音频对齐进行了深入评估。我们的研究结果揭示了 Auffusion 生成与文本描述准确匹配的音频的卓越能力，这在几个相关任务中得到了进一步的验证，例如音频风格转换、修复和其他操作。我们的实现和演示可在此 https URL 上访问。

Jan, 2024

用一致性蒸馏加速基于扩散的文本到音频生成

这项研究修改最近提出的一致性蒸馏框架，用于训练只需要单个神经网络查询的 TTA 模型，同时通过在音频空间中使用新的损失函数（如 CLAP 得分）对一致性 TTA 模型进行微调，从而在保留扩散模型高生成质量和多样性的同时，将查询次数减少了 400 倍。

Sep, 2023

DiffAVA: 带视觉对齐的个性化文本到音频生成

该文章提出了一种基于视觉对齐的新型个性化文本转语音生成方法 ——DiffAVA，它使用多头注意力变换器聚合视觉特征的时间信息，并利用双模残差网络将时间视觉表示与文本嵌入进行融合，然后采用对比学习目标来匹配视觉对齐的文本嵌入和音频特征。研究结果表明，DiffAVA 在视觉对齐的文本转音频生成方面具有竞争力的表现。

May, 2023

Tango 2：通过直接偏好优化对齐基于扩散的文本到音频生成

研究使用 diffusion-DPO（直接偏好优化）损失在偏好数据集上对 Tango 文本到音频模型进行微调，以改进音频生成性能，并且在自动和手动评估指标上显示出优于 Tango 和 AudioLDM2 的效果。

Apr, 2024

基于条件扩散模型和语言模型的最小监督语音合成：语义编码的比较研究

通过结合两种离散语音表示形式并使用两个序列到序列任务解耦合 TTS，最近在对可以以最低限度的监督进行训练的 TTS 方法中产生了越来越大的兴趣。我们提出了 Diff-LM-Speech，它在扩散模型的基础上将语义嵌入建模为基于 mel-spectrogram，并引入了基于变分自动编码器和韵律瓶颈的提示编码结构，以提高提示表示能力。我们还提出了 Tetra-Diff-Speech，通过设计一个持续时间扩散模型来实现多样化的韵律表达。同时，我们提出了 Tri-Diff-Speech 来验证语义编码的必要性。实验结果表明，我们的方法优于基准方法。我们提供了一个包含音频样本的网站。

Jul, 2023

DiTTo-TTS：高效可扩展的零样本文本到语音系统基于扩散 Transformer

利用大规模扩散模型做无领域特定建模的语音合成，通过跨注意机制和对语音表示总长度的预测来解决文本 - 语音对齐的问题，在语音的潜在空间中结合语义引导进行提升。该模型在 82K 小时的训练数据和 790M 参数的模型规模上进行了训练，实验证明它在自然度、可懂度和说话人相似度等指标上不仅简化了训练流程，而且具有与最先进的 TTS 模型相媲美的零 - shot 性能。

Jun, 2024