SpeechX：神经编解码器语言模型作为通用语言转换器

Aug, 2023

SpeechX：神经编解码器语言模型作为通用语言转换器

SpeechX: Neural Codec Language Model as a Versatile Speech Transformer

Xiaofei Wang, Manthan Thakker, Zhuo Chen, Naoyuki Kanda, Sefik Emre Eskimez...

TL;DRSpeechX 是一种通用的语音生成模型，能够实现零 - shot 语音合成和各种语音转换任务，处理干净和嘈杂信号。SpeechX 结合了神经编解码器的语言建模和多任务学习，通过任务相关的提示实现统一和可扩展的建模，并在语音增强和转换任务中提供一致的方法来利用文本输入。实验结果表明，SpeechX 在零 - shot 语音合成、降噪、目标扬声器提取、语音去除和语音编辑等多种任务中表现出效果，与专门模型相比实现了可比或更好的性能。

Abstract

Recent advancements in generative speech models based on audio-text prompts have enabled remarkable innovations like high-quality zero-shot text-to-speech. However, existing models still face limitations in handl

generative speech models zero-shot text-to-speech speechx speech transformation tasks task-dependent prompting

发现论文，激发创造

零對應跨模態轉換的模塊化語音轉文本翻譯

通过独立训练的编码器和解码器，通过共享的固定大小表示组合，可以在语音到文本翻译中取得竞争力的性能，本研究表明这种方法可以通过多语种训练进一步改进，我们观察到在零 - shot 跨模态语音翻译中显著提高，甚至在几种语言上胜过基于 XLSR 的有监督方法。

Oct, 2023

VoiceCraft: 野外零射语音编辑与文本转语音

VoiceCraft 是一种令牌填充的神经编解码语言模型，不仅在语音编辑和零样本文本到语音的任务上取得了最先进的性能，而且在人工评估中，VoiceCraft 生成的编辑后语音与未编辑的语音几乎无法区分；我们的模型在包含不同口音、说话风格、录音条件、背景噪音和音乐的具有挑战性和真实性的数据集上表现出色，在语音编辑方面，我们引入了一个高质量、具有挑战性和真实性的数据集 RealEdit 作为评估。

Mar, 2024

使用您自己的语音发出外语：跨语言神经编解码语言建模

本研究提出了一种跨语言神经编解码语言模型，VALL-E X，用于跨语言语音合成，并通过实验证明其在零样本跨语言文本到语音合成和零样本语音到语音翻译任务中能够生成质量高的语音。此外，VALL-E X 可有效缓解外国口音问题，可通过语言 ID 控制。

Mar, 2023

神经编解码语言模型是零样本文本到语音合成器

本文介绍了一种基于语言模型的文本到语音合成方法，使用名为 Vall-E 的神经编解码器语言模型，通过在预训练阶段将 60K 小时的英语语音数据进行规模扩大，可以使用仅三秒的不同说话人的注册录音作为语音提示来合成高质量的个性化语音，并能够在保持发言人情感和声学环境的前提下，提高声音自然度和发言人相似度。

Jan, 2023

跨模态渐进训练的端到端语音翻译

提出了一种基于 Cross Speech-Text（XSTNet）网络的用于语音翻译的端到端模型，采用自监督预训练子网络作为音频编码器、多任务训练目标以及渐进式训练策略，并在 MuST-C En-X 和 LibriSpeech En-Fr 数据集上取得了最新的最佳效果，平均 BLEU 值为 28.8，优于之前的最佳方法 3.2 BLEU。

Apr, 2021

基于音频编解码器的零样本文本到语音合成的改进：多模态背景和大型语言模型

通过将 Qformer 应用于多模态上下文信息，结合预训练的大型语言模型和音频编码器，我们提出了一种适应多种上下文 TTS 场景的全新语音合成模型，通过预测语义令牌和生成声学令牌来提高音频质量和说话人相似性。广泛的客观和主观评估结果表明，我们的方法在各种上下文 TTS 场景中优于基准模型。

Jun, 2024

基于序列到序列模型的直接语音到语音翻译

该研究提出了一种基于注意力机制的端到端学习的序列到序列神经网络，能够直接将一种语言的语音翻译成另一种语言的语音，无需中间文本表示，该方法通过学习将语音谱图映射到目标语言的谱图，同时也演示了译后语音合成的能力。研究在两个西班牙语到英语的语音翻译数据集上进行了实验，证明了该方法在这个极具挑战的任务上的可行性。

Apr, 2019

XTTS：一种大规模多语言零射击文本转语音模型

提出了 XTTS 系统，是基于 Tortoise 模型的多语言训练方法，通过改进声纹克隆和加快训练和推理速度，实现了在 16 种语言中取得了最先进的结果。

Jun, 2024

Small-E：用线性注意力实现高效语音合成的小型语言模型

最近关于文本到语音合成（TTS）的研究表明，使用语言模型驱动的 TTS 展示了卓越的能力，能够实现自然度和零样本声音克隆。本文提出使用新兴递归架构替代变压器，并引入专门的交叉关注机制以减少重复和跳跃问题。结果，我们的架构能够在长音频样本上高效训练，并在相同规模的基准模型上实现最先进的零样本声音克隆。

Jun, 2024

MultiSpeech: 基于 Transformer 的多说话人文本转语音

本文提出了一种名为 MultiSpeech 的高质量多说话人变压器语音合成系统，通过几个特殊设计的组件 / 技术改善了文本到语音的对齐，并在多个数据集上展示了其效果。

Jun, 2020