CoVoMix: 推进零样本语音生成以实现人类般的多方对话

Apr, 2024

CoVoMix: 推进零样本语音生成以实现人类般的多方对话

CoVoMix: Advancing Zero-Shot Speech Generation for Human-like Multi-talker Conversations

Leying Zhang, Yao Qian, Long Zhou, Shujie Liu, Dongmei Wang...

TL;DR零样本文本朗读 (TTS) 建模的最新进展在生成高保真和多样化的语音方面取得了重大进展。然而，在实现人类自然性的语音中实现对话生成仍然是该领域的一个挑战。在这篇论文中，我们介绍了一种名为 CoVoMix 的新型模型，用于零样本、人类化、多发言人、多轮对话语音生成。CoVoMix 首先将对话文本转换为多个离散令牌流，每个令牌流代表单个发言人的语义信息。然后，将这些令牌流输入基于流匹配的声学模型，以生成混合的 mel 频谱图。最后，使用 HiFi-GAN 模型生成语音波形。此外，我们设计了一套全面的度量标准来衡量对话建模和生成的效果。我们的实验结果表明，CoVoMix 能够生成自然性和连贯性非常类似于人类的对话，还包括多个发言人参与多轮对话。这些在单个通道内生成的对话以流畅的语音过渡为特点，包括重叠的语音和适当的语言行为，如笑声。音频样本可在此 https URL 查看。

Abstract

Recent advancements in zero-shot text-to-speech (TTS) modeling have led to significant strides in generating high-fidelity and diverse speech. However, dialogue generation, along with achieving human-like natural

zero-shot text-to-speech dialogue generation covomix multi-speaker dialogue acoustic modeling

发现论文，激发创造

VoiceCraft: 野外零射语音编辑与文本转语音

VoiceCraft 是一种令牌填充的神经编解码语言模型，不仅在语音编辑和零样本文本到语音的任务上取得了最先进的性能，而且在人工评估中，VoiceCraft 生成的编辑后语音与未编辑的语音几乎无法区分；我们的模型在包含不同口音、说话风格、录音条件、背景噪音和音乐的具有挑战性和真实性的数据集上表现出色，在语音编辑方面，我们引入了一个高质量、具有挑战性和真实性的数据集 RealEdit 作为评估。

Mar, 2024

使用动态卷积注意力的零样本长篇语音克隆

本文介绍了一种基于注意力机制和零样本说话人自适应技术，在语音克隆技术中可以从几秒钟的参考语音中复制目标语音，从而实现长话语的普遍化，并且可以保持较高的自然度和相似性。

Jan, 2022

YourTTS: 面向全体人员的零样本多说话人语音合成和零样本语音转换

该研究使用多语言方法进行零样本多说者语音合成，可在低资源语种上实现零样本语音转换，使用 VITS 模型，经过多项创新修改后，在 VCTK 数据集上实现了最先进的结果，并且可以在少于 1 分钟的输入语音上对 YourTTS 进行微调以获得最佳效果。

Dec, 2021

透过零训练样本的情感和言语阻碍生成实现人性化的语音合成

现代对话系统在情感深度和人类交互特征方面存在重大局限。为弥补这一差距，我们设计了一种创新的语音合成流程，通过零 - shot 设置下的先进语言模型将人类情感和不流畅的特质引入生成的文本，从而更好地模拟人类语音模式，提供更直观自然的用户交互，产生几乎无法与真实人类交流区分的合成语音，使每次交互更具个人化和真实性。

Mar, 2024

SpeechX：神经编解码器语言模型作为通用语言转换器

SpeechX 是一种通用的语音生成模型，能够实现零 - shot 语音合成和各种语音转换任务，处理干净和嘈杂信号。SpeechX 结合了神经编解码器的语言建模和多任务学习，通过任务相关的提示实现统一和可扩展的建模，并在语音增强和转换任务中提供一致的方法来利用文本输入。实验结果表明，SpeechX 在零 - shot 语音合成、降噪、目标扬声器提取、语音去除和语音编辑等多种任务中表现出效果，与专门模型相比实现了可比或更好的性能。

Aug, 2023

音频全能化：使用 WavLM 预训练模型的语音驱动手势合成

该研究介绍了使用 WavLM 预训练模型的 speech-conditional diffusion-based 和 non-autoregressive transformer-based 生成模型 “diffmotion-v2”，通过原始语音音频产生个体化和风格化的全身共说手势，消除了复杂的多模态处理和手动注释的需求，实现了低级和高级音频信息的提取及语音信息与共说手势之间的关系学习。在多个数据集上进行了大量评估实验以验证 WavLM 和模型合成具有不同风格的自然共说手势的能力。

Aug, 2023

CoMoSpeech: 一步语音和歌唱声音合成的一致性模型

本文提出了一种基于一致性模型的语音合成方法 CoMoSpeech，采用单一扩散采样步骤实现语音合成。实验表明，CoMoSpeech 的推理速度比现实时间快 150 倍以上，并且在文本转语音和歌唱声音合成方面具有最佳音频质量。

May, 2023

轻量级零样本文本转语音与适配器混合模型

基于大规模模型的零样本文本转语音（TTS）方法的进步展示了高保真度的说话者特征重现，但这些模型过于庞大以至于无法实际日常使用。我们提出了一种使用混合适配器（MoA）的轻量级零样本 TTS 方法。我们的方法将 MoA 模块整合到非自回归 TTS 模型的解码器和方差适配器中，通过根据说话者嵌入选择与说话者特征相关的适配器，以零样本方式增强了适应各种说话者的能力。我们的方法以最小的附加参数实现了高质量的语音合成。通过客观和主观评估，我们确认我们的方法在比基准少 40% 的参数下以 1.9 倍的推理速度实现了更好的性能。可以在我们的演示页面（此 https 网址）上找到音频样本。

Jul, 2024

Pheme：高效且会话式的语音生成

在这项研究中，我们介绍了 Pheme 模型系列，它提供了紧凑而高性能的模型，能够并行生成自然对话式语音，并且可以高效地在较小规模的对话数据上进行训练，降低数据需求 10 倍以上，但仍能与自回归 TTS 模型的质量相匹配。我们还展示了通过简单的教师 - 学生蒸馏，在预训练的 Pheme 检查点的基础上，通过仅依靠更大的教师模型生成的合成语音，在单说话者设置上获得声音质量的显著改进。在线提供音频样本和预训练模型。

Jan, 2024

基于音频编解码器的零样本文本到语音合成的改进：多模态背景和大型语言模型

通过将 Qformer 应用于多模态上下文信息，结合预训练的大型语言模型和音频编码器，我们提出了一种适应多种上下文 TTS 场景的全新语音合成模型，通过预测语义令牌和生成声学令牌来提高音频质量和说话人相似性。广泛的客观和主观评估结果表明，我们的方法在各种上下文 TTS 场景中优于基准模型。

Jun, 2024