PolyVoice: 语言模型用于语音翻译
本研究提出一种直接语音到语音的翻译模型,它可以在不依赖中间文本生成的情况下将一种语言的语音翻译成另一种语言的语音,并且结合了自我监督离散语音编码和序列到序列的语音到单位翻译,以预测目标语音的离散表示,并在同一推断通过实现同步生成双重模态输出(语音和文本)。在 Fisher 西班牙语 - 英语数据集上,我们的模型较基线直接 S2ST 模型改进了 6.7 BLEU。由于能够支持未书写语言的翻译,当没有文本转录时,我们的模型表现与训练有文本监督的谱图预测模型相当。
Jul, 2021
该研究提出了一个跨语言语音合成框架,包括上游声码转换模型和下游文本转语音模型。通过在四个阶段中使用声码转换模型将目标语音转换为目标说话人的声音、联合目标语言的语言特征和持续时间进行单一说话人声学模型的训练以及设计一种与地区无关的波形合成器等方法,我们的评估表明这种方法优于现有的基于多语言训练模型的方法,并在不同的模型结构、语言、说话人和数据量方面展现出其鲁棒性,尤其适用于资源匮乏环境。
Sep, 2023
该论文基于 Tacotron 合成模型,采用多说话人、多语言合成的方式,在没有任何双语或平行示例的情况下,实现了跨语言的语音转移。通过使用音素输入表征,鼓励模型跨语言共享模型容量,并结合对抗损失项,鼓励模型将语音内容与说话人身份表示分离,可以训练出一个可以用于所有训练语言的说话人的稳定可靠的语音合成模型。
Jul, 2019
我们提出了一种无需文本数据即可构建的无文本语音到语音翻译系统,采用了自监督单元级别的语音标准化技术来优化多说话者语音的模型,仅使用了 10 分钟的数据训练该技术,可在 VoxPopuli S2ST 数据集上实现平均 3.2 BLEU 分数的增益,是首次建立了可用于多种语言对的无文本 S2ST 技术。
Dec, 2021
该研究提出了一种基于注意力机制的端到端学习的序列到序列神经网络,能够直接将一种语言的语音翻译成另一种语言的语音,无需中间文本表示,该方法通过学习将语音谱图映射到目标语言的谱图,同时也演示了译后语音合成的能力。研究在两个西班牙语到英语的语音翻译数据集上进行了实验,证明了该方法在这个极具挑战的任务上的可行性。
Apr, 2019
该论文介绍了 CrossVoice,这是一种采用先进的 ASR、MT 和 TTS 技术的级联式语音到语音翻译(S2ST)系统,通过迁移学习实现跨语言语调保留。我们通过与直接 S2ST 系统的全面实验比较,展示了在 Fisher Es-En、VoxPopuli Fr-En 等任务中,CrossVoice 在 BLEU 分数上的改进以及在基准数据集 CVSS-T 和 IndicTTS 上的语调保留能力。通过平均 4 分中的 3.75 的意见得分,CrossVoice 合成的语音与基准上的人类语音接近,突出了级联式系统和迁移学习在多语言 S2ST 中的有效性。
May, 2024
本文提出了一种基于自动发现独立单元的无监督语音到语音翻译系统,使用三步训练过程,避免使用自动语音识别和文本转语音模型,在合成语音上的实验结果表明该方法可行。
May, 2023
本文提出了使用双向扰动的语音到语音翻译模型 TranSpeech,该模型通过样本的风格归一化和信息提升改善了离散单元之间的声学多模性,并且使用了非自回归技术来提高翻译速度和准确性。实验结果表明,与基准 S2ST 模型相比,BiP 平均提高了 2.9 BLEU 分数,并且我们的并行解码技术使推理延迟大幅降低。
May, 2022
该研究提出了 Translatotron 2,一种神经直接语音转语音翻译模型,它具备优秀的翻译质量和语音生成质量,并推出了一种简单方法来保留语音翻译时原始说话者声音,与现有方法相比,它更好地保留了说话者的隐私。
Jul, 2021