使用瓶颈特征进行直接语音到语音翻译，无需文本注释

Dec, 2022

使用瓶颈特征进行直接语音到语音翻译，无需文本注释

Direct Speech-to-speech Translation without Textual Annotation using Bottleneck Features

Junhui Zhang, Junjie Pan, Xiang Yin, Zejun Ma

TL;DR提出了一种无需文本标注的直接语音翻译模型，使用瓶颈特征作为中间训练目标，可在普通话 - 粤语语音翻译上实现与级联系统相同的翻译和合成质量。

Abstract

speech-to-speech translation directly translates a speech utterance to another between different languages, and has great potential in tasks such as simultaneous interpretation. State-of-art models usually contains an auxiliary module for phoneme sequences prediction, and this requires

speech-to-speech translation phoneme prediction bottleneck features mandarin-cantonese direct model

发现论文，激发创造

基于序列到序列模型的直接语音到语音翻译

该研究提出了一种基于注意力机制的端到端学习的序列到序列神经网络，能够直接将一种语言的语音翻译成另一种语言的语音，无需中间文本表示，该方法通过学习将语音谱图映射到目标语言的谱图，同时也演示了译后语音合成的能力。研究在两个西班牙语到英语的语音翻译数据集上进行了实验，证明了该方法在这个极具挑战的任务上的可行性。

Apr, 2019

使用离散单元进行直接语音到语音翻译

本研究提出一种直接语音到语音的翻译模型，它可以在不依赖中间文本生成的情况下将一种语言的语音翻译成另一种语言的语音，并且结合了自我监督离散语音编码和序列到序列的语音到单位翻译，以预测目标语音的离散表示，并在同一推断通过实现同步生成双重模态输出（语音和文本）。在 Fisher 西班牙语 - 英语数据集上，我们的模型较基线直接 S2ST 模型改进了 6.7 BLEU。由于能够支持未书写语言的翻译，当没有文本转录时，我们的模型表现与训练有文本监督的谱图预测模型相当。

Jul, 2021

无文本直接语音翻译与离散语音表示

本文提出了一种基于 Translatotron 2 的 Textless Translatotron 模型，使用预处理的无监督语音数据的语音编码器进行训练，针对缺乏书面形式的语言进行端到端的直接语音翻译，效果优于之前的最佳无文本模型，且在多语言和双语语料库上，翻译质量几乎与 Translatotron 2 相当。

Oct, 2022

简单有效的无监督语音翻译

本文利用无监督语音识别、机器翻译与语音合成技术，探讨实现无标注数据建立语音翻译系统的方法，通过管道方法或生成伪标签，对端到端语音翻译模型进行训练。同时，提出一种无监督域自适应方法，能够提供一定的性能提升。实验结果表明，本文提出的无监督语音翻译方法，在 Libri-Trans 基准测试的 BLEU 分数上超过以前报告的无监督效果的 3.2 个点，在 CoVoST2 数据集上，本文的最佳系统相对于最佳监督学习的端到端模型（无预训练），在五个语种（X-En）上平均提高 5.0 个 BLEU 分数。在 MuST-C 和 CVSS 基准测试上，本文也取得了有竞争力的结果。

Oct, 2022

无监督语音文本翻译

本文提出了一种基于单语音频和文本语料库的语音翻译系统框架，使用交叉模态双语词典将每个源语音片段对应到目标文本翻译，通过使用语言模型和序列去噪自编码器，对每个音频片段进行逐字翻译来提高翻译质量，实验结果表明，我们的无监督系统尽管没有监督，但达到了与监督方法相比可比的 BLEU 分数。

Nov, 2018

利用无监督和弱监督数据，提高直接语音翻译的准确性

本文旨在通过多种方法利用无监督和弱监督的语音和文本数据来提高基于 Translatotron 2 的直接语音到语音翻译系统的性能，实现在 21 种语言对上 BLEU 值提高 13.6（相对增长 113%），特别是对于低资源语言的提高更为显著（相对增长 398%）

Mar, 2022

未转录未知语言之间的语音翻译

本文提出了一种无需转录或语言监督的训练语音翻译的方法，使用自监督无监督组合的离散量化自动编码器进行训练，然后使用序列到序列模型将源语言语音直接映射到目标语言的离散表示上，最终实现无需先训练或辅助步骤即可直接生成目标语音；该方法是第一次在未经转录的未知语言之间进行纯语音翻译的研究。

Oct, 2019

直接语音转文本翻译的最新进展

本文综述了直接语音翻译的当前技术状况，将现有研究工作分为三个方向：建模负担，数据稀缺和应用问题，并提出了未来工作的一些有前途的方向。

Jun, 2023

听写翻译：端到端语音转文本翻译的概念验证

本文是第一篇尝试构建不使用源语言转录的端到端语音到文本翻译系统的论文，并提出了一种直接语音到文本翻译的模型，在一小部分法英人造语料库上取得了有希望的结果。

Dec, 2016

不使用并行语音数据，是否能实现高质量的直接语音到语音翻译？

现有的两阶段直接语音到语音翻译（S2ST）模型将任务分解为语音到文本翻译（S2TT）和文本到语音合成（TTS），并在端到端模型中取得了良好的结果。然而，这些模型的训练仍然依赖于平行语音数据，这一数据很难收集。相比之下，S2TT 和 TTS 已经积累了大量的数据和预训练模型，但尚未完全用于 S2ST 模型的开发。本文针对此问题提出了一个名为 ComSpeech 的复合 S2ST 模型，可以无缝集成任何预训练的 S2TT 和 TTS 模型为一个直接的 S2ST 模型。此外，为了消除对平行语音数据的依赖，我们提出了一种新的训练方法 ——ComSpeech-ZS，它仅使用 S2TT 和 TTS 数据。通过对比学习在潜在空间中对齐表示，使从 TTS 数据中学到的语音合成能力能够以零 - shot 的方式推广到 S2ST。在 CVSS 数据集上的实验结果表明，当有平行语音数据时，ComSpeech 在翻译质量和解码速度上都超过了之前的两阶段模型，如 UnitY 和 Translatotron 2。当没有平行语音数据时，ComSpeech-ZS 仅在 ASR-BLEU 上落后于 ame，但胜过了级联模型。

Jun, 2024