直接语音转文本翻译的最新进展

IJCAIJun, 2023

Recent Advances in Direct Speech-to-text Translation

Chen Xu, Rong Ye, Qianqian Dong, Chengqi Zhao, Tom Ko...

TL;DR本文综述了直接语音翻译的当前技术状况，将现有研究工作分为三个方向：建模负担，数据稀缺和应用问题，并提出了未来工作的一些有前途的方向。

Abstract

Recently, speech-to-text translation has attracted more and more attention and many studies have emerged rapidly. In this paper, we present a comprehensive survey on direct speech translation aiming to summarize

speech-to-text translation direct speech translation modeling burden data scarcity application issues

发现论文，激发创造

语音翻译与端到端的承诺：回顾我们的现状

本文介绍了语音翻译技术从松散耦合的串联模型到紧耦合再到最近备受关注的端到端模型的发展历程，讨论了传统方法所面临的主要挑战和最新方法对克服这些问题的方案。通过对传统和最新方法进行统一分类和命名，以解决语音识别和数据缺失问题等开放性研究问题。

Apr, 2020

基于端到端的语音转文本翻译的比较研究

本文介绍了深度学习在语音到文本翻译领域的应用，主要研究了不同端到端架构以及辅助性连接主义时间分类（CTC）损失函数的使用，着重探讨了预训练模型对最终性能的影响，实验证明预训练模型可以使 BLEU 指标提高 4％，TER 指标提高 5％，并且在 270 小时 IWSLT TED 演讲 En->De 和 100 小时 LibriSpeech Audiobooks En->Fr 上的实验结果表明，该方法可以超过当前的端到端最先进系统。

Nov, 2019

基于序列到序列模型的直接语音到语音翻译

该研究提出了一种基于注意力机制的端到端学习的序列到序列神经网络，能够直接将一种语言的语音翻译成另一种语言的语音，无需中间文本表示，该方法通过学习将语音谱图映射到目标语言的谱图，同时也演示了译后语音合成的能力。研究在两个西班牙语到英语的语音翻译数据集上进行了实验，证明了该方法在这个极具挑战的任务上的可行性。

Apr, 2019

端到端语音到文本翻译：综述

语音到文本翻译中的端到端模型的综述，包括模型、评估指标和数据集，提供了挑战和未来研究方向的新见解。

Dec, 2023

使用离散单元进行直接语音到语音翻译

本研究提出一种直接语音到语音的翻译模型，它可以在不依赖中间文本生成的情况下将一种语言的语音翻译成另一种语言的语音，并且结合了自我监督离散语音编码和序列到序列的语音到单位翻译，以预测目标语音的离散表示，并在同一推断通过实现同步生成双重模态输出（语音和文本）。在 Fisher 西班牙语 - 英语数据集上，我们的模型较基线直接 S2ST 模型改进了 6.7 BLEU。由于能够支持未书写语言的翻译，当没有文本转录时，我们的模型表现与训练有文本监督的谱图预测模型相当。

Jul, 2021

利用伪标记数据提高直接语音翻译质量

本文介绍了一种基于 Transformer 神经网络的直接语音翻译技术，利用伪标签和外部数据来提升翻译效果，并在 Fisher 英西测试数据上创造了最好的翻译结果

May, 2022

利用同步的流式 ASR 辅助的直接同声传译

本文提出一种新型的语音翻译范例，通过使用两个分离但同步的解码器，一个用于流式 ASR, 一个用于直接语音翻译，并通过 ASR 生成的中间结果指导直接语音翻译，实现了流畅度更高的翻译质量。

Jun, 2021

听写翻译：端到端语音转文本翻译的概念验证

本文是第一篇尝试构建不使用源语言转录的端到端语音到文本翻译系统的论文，并提出了一种直接语音到文本翻译的模型，在一小部分法英人造语料库上取得了有希望的结果。

Dec, 2016

利用多个 TTS 目标提升语音翻译

通过分析不同合成目标语音对直接语音翻译模型的影响，本文提出了一个多任务框架，通过同时优化不同 TTS 系统的多个目标来提高 S2ST 表现，在 Fisher 西班牙语 - 英语数据集上实现了 2.8 BLEU 的一致改善效果。

Apr, 2023

不使用并行语音数据，是否能实现高质量的直接语音到语音翻译？

现有的两阶段直接语音到语音翻译（S2ST）模型将任务分解为语音到文本翻译（S2TT）和文本到语音合成（TTS），并在端到端模型中取得了良好的结果。然而，这些模型的训练仍然依赖于平行语音数据，这一数据很难收集。相比之下，S2TT 和 TTS 已经积累了大量的数据和预训练模型，但尚未完全用于 S2ST 模型的开发。本文针对此问题提出了一个名为 ComSpeech 的复合 S2ST 模型，可以无缝集成任何预训练的 S2TT 和 TTS 模型为一个直接的 S2ST 模型。此外，为了消除对平行语音数据的依赖，我们提出了一种新的训练方法 ——ComSpeech-ZS，它仅使用 S2TT 和 TTS 数据。通过对比学习在潜在空间中对齐表示，使从 TTS 数据中学到的语音合成能力能够以零 - shot 的方式推广到 S2ST。在 CVSS 数据集上的实验结果表明，当有平行语音数据时，ComSpeech 在翻译质量和解码速度上都超过了之前的两阶段模型，如 UnitY 和 Translatotron 2。当没有平行语音数据时，ComSpeech-ZS 仅在 ASR-BLEU 上落后于 ame，但胜过了级联模型。

Jun, 2024