通过单语数据提高同时机器翻译的效果

AAAIDec, 2022

通过单语数据提高同时机器翻译的效果

Improving Simultaneous Machine Translation with Monolingual Data

Hexuan Deng, Liang Ding, Xuebo Liu, Meishan Zhang, Dacheng Tao...

TL;DR该研究提出并探索了使用单语数据来提高同时机器翻译的质量，并提出了新的单语抽样策略，以避免 SiMT 中的幻觉问题，实验表明新策略可以显著提高翻译质量。

Abstract

Simultaneous machine translation (simt) is usually done via sequence-level knowledge distillation (Seq-KD) from a full-sentence neural machine translation (NMT) model. However, there is still a significant perfor

simt neural machine translation monolingual data simultaneous interpretation sampling strategy

发现论文，激发创造

使用单语数据改进神经机器翻译模型

通过将单语数据与自动背景翻译配对，我们未改变神经网络结构，使用目标语单语训练数据进行神经机器翻译（NMT）模型的训练，并在多项任务上取得最新的最优结果（最高 + 2.8-3.7 BLEU），并证明了使用领域单语和平行数据进行微调，对 IWSLT 15 任务英德翻译有实质性的改善。

Nov, 2015

利用单语数据进行神经机器翻译模型的联合训练

本文提出了一种新方法，通过联合 EM 优化方法融合源语言和目标语言的神经机器翻译模型，以更好地利用单语数据来提高翻译质量，实验结果表明，相对于使用单语数据训练的强基线系统，该方法可以同时提高源到目标和目标到源模型的翻译质量。

Mar, 2018

利用视觉上下文的同时机器翻译

本文旨在研究如何利用视觉信息来弥补缺失的源文本背景，评估不同的多模态方法和视觉特征对最先进的同时机器翻译 (SiMT) 框架的影响。结果表明，视觉背景是有帮助的，基于明确的物体区域信息的可视化模型优于常用的全局特征，在低延迟情境下的表现可提高 3 个 BLEU 分数。我们的定性分析展示，只有多模态系统才能正常翻译英语到标记性别的语言，并处理英语和法语之间的形容词和名词词序等差异。

Sep, 2020

评估同声传译数据上的同时机器翻译表现

该研究旨在证明同时机器翻译系统应该使用实际口译数据进行训练和测试，对使用离线翻译数据进行训练的同时机器翻译系统进行评估，结果表明使用口译数据评估时，BLEU 分数可提高多达 13.83，提出了一种将离线翻译转换为口译风格数据的解决方法，并建议构建更适合评估和开发同时机器翻译系统的大规模口译语料库。

Oct, 2021

重新思考同步机器翻译测试集的合理性

本文介绍了同时机器翻译（SimulMT）模型，包括其与源语句的单调对齐、测试方法的缺陷、以及人工标注的单调测试集 SiMuST-C 的验证、自动提取的单调训练集的优化等。实验表明，自动提取的单调训练集可以为 SimulMT 模型带来高达 3 个 BLEU 分数的提升。

Mar, 2023

无监督神经机器翻译

本研究提出了一种全新的方法，在没有平行数据的情况下，只利用单语数据即可训练 NMT 系统。这种基于注意力机制的编码器解码器模型结合去噪和回译技术，在 WMT 2014 的法英和德英翻译中获得了 15.56 和 10.21 BLEU 分数，且能够利用少量的平行数据来提高翻译质量。

Oct, 2017

无监督统计机器翻译

本文提出了一种基于 SMT 的新颖方法，通过跨语言嵌入映射从单语料库中诱导短语表，再将其与 N-gram 语言模型相结合，通过无监督超参数微调的变体来实现迭代反向翻译，并在 WMT 2014 中实现了超过 7-10 BLEU 点的改进，与监督 SMT 相比关闭了 2-5 BLEU 点的差距。

Sep, 2018

使用同声传译数据进行标记的端到端同声传译训练

本文介绍了一种使用混合数据来训练 SimulST 模型的有效方法，该方法使用了同声传译的数据和离线的双语数据，以及风格标签来指示模型生成同声传译或离线风格的输出。实验结果表明在不同的延迟范围内 BLEURT 有所改善，并且分析结果表明该模型比基准模型生成了更多的同声传译风格的输出。

Jun, 2023

一种有效的无监督机器翻译方法

本文针对现有无监督机器翻译存在的不足之处，通过利用子词信息、开发理论上有根据的无监督调优方法和引入联合优化程序等手段，改进了统计机器翻译系统，并将其用于初始化双 NMT 模型并进行后续微调，使无监督机器翻译的表现大幅度提升。在英德无监督机器翻译领域，改进后的 SMT 系统相较之前最好的无监督系统 BLEU 值提高了 5.5 个百分点，超过了当时的（监督）任务获胜者。

Feb, 2019

无需预测的同步机器翻译训练

本文提出了一种将翻译过程分解为单调翻译和重新排序步骤的新框架，并通过辅助排序网络模型来模拟其中的重新排序步骤，从而提高了同时翻译模型的翻译效果。

Jan, 2022