无分割流式机器翻译

Sep, 2023

Segmentation-Free Streaming Machine Translation

Javier Iranzo-Sánchez, Jorge Iranzo-Sánchez, Adrià Giménez, Jorge Civera, Alfons Juan

TL;DR提出一种无分割的框架，能够在生成翻译之前延迟分割决策，以在实时流中实现无分割的源流翻译，该框架在质量和延迟方面具有更好的权衡。

Abstract

streaming machine translation (MT) is the task of translating an unbounded input text stream in real-time. The traditional cascade approach, which combines an automatic speech recognition (ASR) and an MT system,

streaming machine translation segmentation-free framework real-time translation quality-latency trade-off automatic speech recognition

发现论文，激发创造

通过利用流式历史将机器翻译从同时转换为流式转换

该研究拓展了现有的同声翻译系统，提出一种基于流历史的流机器翻译方法，取得了较大的质量提升，并且表现优于现有同类最佳系统。

Mar, 2022

Subword 分段机器翻译：统一分段和目标句子生成

该研究提出了一种称为子词分节机器翻译（SSMT）的新方法，通过在单个可训练模型中联合学习目标句子单词的分割和目标句子生成，在生成翻译过程中采用动态解码算法进行细分操作，实验结果表明，SSMT 能提高粘着语言的 chrF 分数以及对于评估形态组成通用性构建的测试集的鲁棒性也更强。

May, 2023

非分段输入的同步翻译：滑动窗口方法

提出一种基于滑动窗口的方法来翻译语音识别输出，实验结果表明比传统的 ASR 分段方法提高了 1.3-2.0 BLEU 分数，且减少了重新翻译的需要。

Oct, 2022

同声传译中的重新翻译与流式翻译比较

我们研究了流式机器翻译中一种相关的问题，即允许对假设进行除严格附加单词之外的修订。通过对比自定义流式方法和重翻译，我们发现重翻译在操作非常少的情况下与最先进的流式系统一样好甚至更好，并认为数据增强技术和 wait-k 推理形成了流式翻译的强有力基线。我们通过实验表明，重翻译具有包装任意强大机器翻译系统的能力，并从基础模型升级中获得了显著改进。

Apr, 2020

利用同步的流式 ASR 辅助的直接同声传译

本文提出一种新型的语音翻译范例，通过使用两个分离但同步的解码器，一个用于流式 ASR, 一个用于直接语音翻译，并通过 ASR 生成的中间结果指导直接语音翻译，实现了流畅度更高的翻译质量。

Jun, 2021

基于对齐分块的神经同声传译

提出了一种用于机器翻译的神经网络模型，其能够动态决定何时继续输入源文本或生成翻译文本，通过使用单向或双向编码器来处理实际语音和文本输入，使用词对齐方法生成分块训练数据，并在 IWSLT 2020 英 - 德任务上优于 wait-k 基线 2.6 到 3.7% BLEU 中的结果。

May, 2020

通过潜在对齐分段实现长篇连贯语音翻译

提出一种新的分割方法，用于低延迟的端到端同时语音翻译，并且在多种语言对和领域数据中显示出具有先进水平的质量。

Sep, 2023

无需预测的同步机器翻译训练

本文提出了一种将翻译过程分解为单调翻译和重新排序步骤的新框架，并通过辅助排序网络模型来模拟其中的重新排序步骤，从而提高了同时翻译模型的翻译效果。

Jan, 2022

学习何时为流式语音进行翻译

本文提出了 MoSST 方法，一种用于流式语音翻译的简单有效方法，通过在编码器 - 解码器模型中构建高效的单调分割模块来逐步累积声学信息并检测输入语音中的适当语音单元边界。实验表明，MoSST 在 MuST-C 数据集的多个翻译方向上表现优异，实现了翻译质量和延迟之间的最佳折衷。

Sep, 2021

基于神经机器翻译的实时翻译学习

本论文提出了一种基于神经机器翻译的实时翻译框架，通过代理决策来实现翻译输出实时化并且具有可控的翻译质量与延迟，通过在两种语言对上的实验结果表明了该方法在定量与定性方面的有效性。

Oct, 2016