Parrotron: 一种端到端的语音转换模型及其在听力受损语音和语音分离中的应用

Apr, 2019

Parrotron: 一种端到端的语音转换模型及其在听力受损语音和语音分离中的应用

Parrotron: An End-to-End Speech-to-Speech Conversion Model and its Applications to Hearing-Impaired Speech and Speech Separation

PDF

Fadi Biadsy, Ron J. Weiss, Pedro J. Moreno, Dimitri Kanevsky, Ye Jia

TL;DRParrotron 是一种端到端训练的语音转语音转换模型，可以将输入的语谱图直接映射到另一个语谱图，而无需使用任何中间离散表示。该模型可以将来自任何说话者的语音规范化为单个规范化目标说话者的语音，并通过技术手段证明其有效性。

Abstract

We describe Parrotron, an end-to-end-trained speech-to-speech conversion model that maps an input spectrogram directly to another

speech-to-speech conversion end-to-end-trained voice normalization spectrogram phoneme decoders

发现论文，激发创造

Cotatron: 无需并行数据的基于转录的语音编码器实现任意 - 多语音转换

本文提出了一种基于音素后验概率的 Cotatron 语音编码器，其可以使用常规的 TTS 数据集进行训练，通过使用该编码器，我们的系统可以转换未曾见过的说话人的语音，并实现自动转录。

May, 2020

利用自监督表示的鹦鹉 TTS：文本转语音合成

提出一种名为 ParrotTTS 的文本转语音建模的替代方法，该方法基于自监督学习方法。ParrotTTS 采用两步方法，在无标签数据上训练语音到语音模型，然后使用文本到嵌入模型将其扩展到 TTS。该方法在自然度方面取得了有竞争力的平均意见分数，但在转录对和讲话者自适应方面明显优于传统 TTS 模型，并进一步为使用通用训练的自监督学习语音模型训练 TTS 模型铺平了道路。

Mar, 2023

Translatotron 2: 高质量带声音保留的直接语音翻译

该研究提出了 Translatotron 2，一种神经直接语音转语音翻译模型，它具备优秀的翻译质量和语音生成质量，并推出了一种简单方法来保留语音翻译时原始说话者声音，与现有方法相比，它更好地保留了说话者的隐私。

Jul, 2021

MParrotTTS: 低资源情境下的多语言多说话人文本转语音合成

我们提出了 MParrotTTS，它是一个统一的多语言、多说话者的文字转语音合成模型，能够生成高质量的语音。使用自我监督语音表示的模块化训练范式，MParrotTTS 能够以最少的监督数据适应新语言，并在训练自我监督骨干的同时，泛化到未见过的语言。此外，MParrotTTS 不需对任何双语或平行例子进行训练，即可跨语言转移语音并保留说话者的特点。在六种语言上，我们通过并行和跨语言合成的语音流畅度和说话者相似度方面的广泛结果，证明了所提出模型优于现有的最先进的多语言 TTS 模型和基线，只使用少量的受控训练数据。可以在此 https URL 找到我们模型的语音样本。

May, 2023

PolyVoice: 语言模型用于语音翻译

我们提出了 PolyVoice，这是一个基于语言模型的语音 - 语音翻译（S2ST）系统，利用离散化语音单元实现对未书写语言的翻译。在语音合成方面，我们采用现有的 VALL-E X 方法构建基于单元的音频语言模型来保留原始语音的音色特征和语音风格。实验结果表明，我们的系统可以生成高质量翻译和音频质量的语音。

Jun, 2023

Translatotron 3: 利用单语料进行语音翻译

本文提出了 Translatotron 3，一种无需监督数据集即可以直接语音为输入，并通过采用掩码自编码器、无监督嵌入式映射和回译相结合的方式进行训练的翻译模型。在西班牙语与英语之间的语音到语音翻译任务中，实验结果显示，Translatotron 3 优于基线级联系统，在不配对会话数据集上报告 18.14 个 BLEU 点的改进。与需要现实数据集或专业模型复制非语言信息的监督方法相比，Translatotron 3 展示了保留非语言信息，如停顿、说话速度和说话者身份的能力。

May, 2023

TransVIP: 保留声音和等时性的语音到语音翻译系统

该研究介绍了一种名为 TransVIP 的新模型框架，该模型通过级联方式利用多样的数据集，在维持发言者的声音特征和等时性的同时实现端到端推理，适用于视频配音等场景，并在法英语言对上的实验中表现出优于当前最先进的语音到语音翻译模型的性能。

May, 2024

ParroT：使用大型语言模型进行聊天翻译

提出了基于开源 LLMS（LLaMA-7b）和人工翻译评估数据的 ParroT 框架，该框架通过重新规划翻译数据到遵循指令的风格，并引入 “提示” 字段，以调节翻译过程。通过 Finetuning ParroT 模型的三种指令类型，包括翻译指令、对比指令和误差引导指令，实验结果显示翻译指令可以显着提高香草 LLMS 的翻译性能，而误差引导指令则进一步改善了翻译性能，并展示了从人工注释的低质量翻译中学习的重要性。同时，ParroT 模型也可以通过包含多任务数据集 Alpaca 的精调任务中保持其对通用任务的能力。

Apr, 2023

使用非平行训练数据从语音合成到语音转换的迁移学习

本文提出了一种基于 TTS-VC 转移学习的语音转换框架，采用多说话人语音合成系统和编码器 - 解码器架构等技术，实现任意语音转换且在语音质量、自然度和说话人相似度等方面均优于竞争方法。

Sep, 2020

Attentron: 利用基于注意力的可变长度嵌入的少样本文本转语音

提出了一种名为 Attentron 的 few-shot TTS 模型，通过引入两个编码器解决了克隆隐藏说话人的问题并显著提高了生成音频的质量和说话人相似度。

May, 2020