基于音频编解码器的零样本文本到语音合成的改进：多模态背景和大型语言模型

Jun, 2024

基于音频编解码器的零样本文本到语音合成的改进：多模态背景和大型语言模型

Improving Audio Codec-based Zero-Shot Text-to-Speech Synthesis with Multi-Modal Context and Large Language Model

Jinlong Xue, Yayue Deng, Yicheng Han, Yingming Gao, Ya Li

TL;DR通过将 Qformer 应用于多模态上下文信息，结合预训练的大型语言模型和音频编码器，我们提出了一种适应多种上下文 TTS 场景的全新语音合成模型，通过预测语义令牌和生成声学令牌来提高音频质量和说话人相似性。广泛的客观和主观评估结果表明，我们的方法在各种上下文 TTS 场景中优于基准模型。

Abstract

Recent advances in large language models (LLMs) and development of audio codecs greatly propel the zero-shot tts. They can synthesize personalized speech with only a 3-second speech of an unseen speaker as acoustic prompt. However, they only support short speech prompts and cannot leve

zero-shot tts audio codecs context tts qformer multi-modal context information

发现论文，激发创造

利用大型语言模型进行端到端语音识别的语境化

通过引入一种新方法，结合大型语言模型（LLMs）来进行上下文化的语音识别模型，我们证明通过添加适配器的少量可训练参数，可以在保持相同的文本输入功能的同时，实现预训练 LLM 的上下文化语音识别能力并显著提高性能。

Sep, 2023

神经编解码语言模型是零样本文本到语音合成器

本文介绍了一种基于语言模型的文本到语音合成方法，使用名为 Vall-E 的神经编解码器语言模型，通过在预训练阶段将 60K 小时的英语语音数据进行规模扩大，可以使用仅三秒的不同说话人的注册录音作为语音提示来合成高质量的个性化语音，并能够在保持发言人情感和声学环境的前提下，提高声音自然度和发言人相似度。

Jan, 2023

低资源多语言和零样本多说者 TTS

在这项工作中，我们将零样本语音克隆和多语言低资源语音合成的任务结合在一起。通过使用语言不可知的元学习（LAML）程序和对 TTS 编码器的修改，我们证明了一个系统可以学习在只有 5 分钟的训练数据下说一个新语言，同时保留了推断新学习语言中甚至看不到的说话者声音的能力，并提供了开源的代码和训练模型。

Oct, 2022

SpeechX：神经编解码器语言模型作为通用语言转换器

SpeechX 是一种通用的语音生成模型，能够实现零 - shot 语音合成和各种语音转换任务，处理干净和嘈杂信号。SpeechX 结合了神经编解码器的语言建模和多任务学习，通过任务相关的提示实现统一和可扩展的建模，并在语音增强和转换任务中提供一致的方法来利用文本输入。实验结果表明，SpeechX 在零 - shot 语音合成、降噪、目标扬声器提取、语音去除和语音编辑等多种任务中表现出效果，与专门模型相比实现了可比或更好的性能。

Aug, 2023

Mega-TTS: 具有本征归纳偏置的大规模零样本文本转语音

该研究基于语音属性的分解和对应的感性偏见，提出了一种基于方谱的 TTS 系统 Mega-TTS，训练了 20k 小时的语音数据，实现了零样本文本到语音的高质量生成。

Jun, 2023

轻量级零样本文本转语音与适配器混合模型

基于大规模模型的零样本文本转语音（TTS）方法的进步展示了高保真度的说话者特征重现，但这些模型过于庞大以至于无法实际日常使用。我们提出了一种使用混合适配器（MoA）的轻量级零样本 TTS 方法。我们的方法将 MoA 模块整合到非自回归 TTS 模型的解码器和方差适配器中，通过根据说话者嵌入选择与说话者特征相关的适配器，以零样本方式增强了适应各种说话者的能力。我们的方法以最小的附加参数实现了高质量的语音合成。通过客观和主观评估，我们确认我们的方法在比基准少 40% 的参数下以 1.9 倍的推理速度实现了更好的性能。可以在我们的演示页面（此 https 网址）上找到音频样本。

Jul, 2024

零對應跨模態轉換的模塊化語音轉文本翻譯

通过独立训练的编码器和解码器，通过共享的固定大小表示组合，可以在语音到文本翻译中取得竞争力的性能，本研究表明这种方法可以通过多语种训练进一步改进，我们观察到在零 - shot 跨模态语音翻译中显著提高，甚至在几种语言上胜过基于 XLSR 的有监督方法。

Oct, 2023

一个模型，多种语言：元学习应用于多语言文本朗读

本文介绍一种多语言语音合成方法，该方法使用上下文参数生成的元学习概念，使用更少的训练数据和更多的语言产生自然音质的多语言语音；其模型使用 Tacotron 2 和完全卷积输入文本编码器，在训练中使用 CSS10 数据集和新的基于 5 种语言的通用语音数据集，同时使用对抗分类器和梯度反转层增强语音克隆。实验结果表明，该模型跨语言信息共享效果良好，在 “代码切换” 语音合成中表现更自然、准确。

Aug, 2020

在零样本音频字幕中使用音频 - 语言模型引导和音频上下文关键词

ZerAuCap 是一个新的框架，利用预训练的大型语言模型来生成既不需要任务特定训练，又能描述音频内容的文本标注，通过预先训练的音频 - 语言模型指导语言模型生成内容与音频相关的文本，使用音频上下文关键词来生成广义的文本，在 AudioCaps 和 Clotho 数据集中实现了最先进的结果。

Nov, 2023

简单有效的多句 TTS 系统，具有表达和连贯的韵律

本文针对长文本合成语音的特殊困难，通过将上下文信息、强大文本特征和多人数据用于 Transformer-based FastSpeech 的简单扩展，改进了合成语音的韵律，其中 BERT 也受益于更多的训练数据。通过客观的停顿和速度指标和全面的主观评估，得出了一种较强的合成语音系统，其中包括所有改进扩展，相对于同类竞品在语音自然度方面表现出显著的提升。

Jun, 2022