VoiceLDM：具有环境上下文的文本转语音

Sep, 2023

VoiceLDM：具有环境上下文的文本转语音

VoiceLDM: Text-to-Speech with Environmental Context

Yeonghyeon Lee, Inmo Yeon, Juhan Nam, Joon Son Chung

TL;DRVoiceLDM 是一个基于潜在扩散模型的文本到音频模型，通过结合描述提示和内容提示，能够生成与输入条件对齐的逼真音频，并展示了在语音智力测试集上甚至超过参考音频的结果，同时还探索了 VoiceLDM 的文本到语音和零样本文本到音频的能力。

Abstract

This paper presents voiceldm, a model designed to produce audio that accurately follows two distinct natural language text prompts: the description prompt and the content prompt. The former provides information about the overall environmental context of the audio, while the latter conv

voiceldm audio generation text-to-audio model contrastive language-audio pretraining controllability

发现论文，激发创造

AudioLDM：使用潜在扩散模型进行文本到音频生成

本文介绍了一种基于潜在空间的 Text-to-audio（TTA）系统 AudioLDM，它使用对比语音 - 语言预训练（CLAP）潜在信息学习连续音频表示，并以文本嵌入作为采样条件，从而在生成质量和计算效率方面具有优势，实测效果接近官方记录，并可以进行零 - shot 文本引导音频操作，如风格转移。

Jan, 2023

使用指令调整的 LLM 和潜在扩散模型生成文本到语音

本研究采用基于指令调整的大型语言模型 Flan-T5 作为文本编码器，通过使用基于声音压力级的声音混合来进行训练集增强，从而取得了比 AudioLDM 更好的结果，成为了生成文字描述音频的任务中的最佳选择。

Apr, 2023

利用预训练的 AudioLDM 实现文本到语音生成：基准研究

本文探讨了使用预先训练的 AudioLDM 模型作为声音生成的 “骨架” 在小数据量场景下实现优异表现的优势，并且比较了不同训练策略对模型性能的影响。同时，为了促进未来的研究，我们还在几个常用数据集上评估了各种文本生成语音系统，以允许公平比较和基准测试这些方法。

Mar, 2023

检索辅助文本转语音生成

我们提出了一种用于文本到音频生成的简单的检索增强方法，通过使用检索到的音频文本数据对 TTA 模型的学习进行指导，从而改善了 AudioLDM 模型在长尾数据集上的性能，在 AudioCaps 数据集上，我们的改进模型 Re-AudioLDM 以巨大的优势超越了现有方法，能够生成逼真的音频并具备在复杂场景、罕见音频类别甚至未见过音频类型的潜力。

Sep, 2023

口语对话建模的统一语音文本预训练

提出了一个名为统一口语对话模型（USDM）的广泛的语音文本模型框架，用于生成与给定输入语音相关的有机韵律特征的连贯口语回应，而不依赖于自动语音识别（ASR）或文本到语音（TTS）解决方案。该方法利用底层大型语言模型所展示的推理链能力，采用多步骤的语音文本推理方案。经过自动和人工评估表明，该方法在生成自然流畅的口语回应方面非常有效，优于之前的和级联的基线方法。详细的比较研究显示，尽管级联方法在单独的组件上更强大，但联合的语音文本建模改善了对识别错误和语音质量的鲁棒性。

Feb, 2024

基于音频编解码器的零样本文本到语音合成的改进：多模态背景和大型语言模型

通过将 Qformer 应用于多模态上下文信息，结合预训练的大型语言模型和音频编码器，我们提出了一种适应多种上下文 TTS 场景的全新语音合成模型，通过预测语义令牌和生成声学令牌来提高音频质量和说话人相似性。广泛的客观和主观评估结果表明，我们的方法在各种上下文 TTS 场景中优于基准模型。

Jun, 2024

PromptTTS 2: 使用文本提示描述和生成声音

基于 PromptTTS 2，本研究通过利用变异网络和生成提示管道来解决基于文本提示的文本到语音 (TTS) 方法的挑战，提供声音的多样性信息并生成高质量的文本提示，从而产生与文本提示一致且具有多样性的声音。

Sep, 2023

LLM-AD: 基于大型语言模型的音频描述系统

介绍了一个利用 GPT-4V（视觉）的自动化音频描述生成流程，通过使用现成组件实现，不需要额外训练，生成符合自然语言音频描述生产标准的音频描述，同时通过基于跟踪的字符识别模块在帧间保持上下文一致的角色信息，在 MAD 数据集上表现与基于学习的方法相当，CIDEr 得分为 20.5。

May, 2024

低资源多语言和零样本多说者 TTS

在这项工作中，我们将零样本语音克隆和多语言低资源语音合成的任务结合在一起。通过使用语言不可知的元学习（LAML）程序和对 TTS 编码器的修改，我们证明了一个系统可以学习在只有 5 分钟的训练数据下说一个新语言，同时保留了推断新学习语言中甚至看不到的说话者声音的能力，并提供了开源的代码和训练模型。

Oct, 2022

利用大型语言模型进行端到端语音识别的语境化

通过引入一种新方法，结合大型语言模型（LLMs）来进行上下文化的语音识别模型，我们证明通过添加适配器的少量可训练参数，可以在保持相同的文本输入功能的同时，实现预训练 LLM 的上下文化语音识别能力并显著提高性能。

Sep, 2023