神经机器翻译鲁棒性的句子边界增强

Oct, 2020

神经机器翻译鲁棒性的句子边界增强

Sentence Boundary Augmentation For Neural Machine Translation Robustness

Daniel Li, Te I, Naveen Arivazhagan, Colin Cherry, Dirk Padfield

TL;DR本文针对信息输入过程中产生的错误，并基于错误分析提出了一种简单的数据增强策略，以提高神经机器翻译系统中句子边界分割的鲁棒性。

Abstract

neural machine translation (NMT) models have demonstrated strong state of the art performance on translation tasks where well-formed training and evaluation data are provided, but they remain sensitive to inputs that include errors of various types. Specifically, in the context of long

发现论文，激发创造

评估神经机器翻译中的表示层对词性标注和语义标注任务的影响

本文研究了神经机器翻译中不同层面的向量表示的学习情况，并发现高层次对语义的学习更有效，而较低层次对词性标注的学习效果更好。

Jan, 2018

来自非母语者的文本的神经机器翻译

本研究研究神经机器翻译系统中的数据噪声问题以及如何通过增加包含人工引入的语法错误句子的训练数据来提高其对错误的鲁棒性，同时提出了一套用于测试神经机器翻译在处理语法错误上的JFLEG语法纠错语料库的西班牙语翻译。

Aug, 2018

学习将输入分段有利于基于字符级处理的神经机器翻译

提出了一种基于自适应计算时间算法的动态分词算法，该算法可通过端到端的训练驱动，并可在不同的分词级别之间进行自由导航。在四个翻译任务的评估中，发现模型更喜欢在几乎字符级别上运行，从一种新的角度支持了纯字符级NMT模型。

Oct, 2018

通过数据增强提高神经机器翻译的鲁棒性：超越回译

本文探讨了神经机器翻译以及如何提高其对于噪声输入的鲁棒性，提出了新的数据扩充方法以及通过利用外部数据中的噪声来加强模型鲁棒性。

Oct, 2019

论字符级神经机器翻译中词边界的重要性

本文提出了一种更高效的字符级神经机器翻译解码方法，使用词和字符级别的分层解码结构，能够优化机器翻译性能并学习更长的上下文和语法依赖。

Oct, 2019

干净与嘈杂语音转录的强健神经机器翻译

本文研究如何使强NMT系统适应典型ASR错误，并提出适应策略以训练单一系统，能够在无监督输入类型的情况下翻译干净或嘈杂的输入。通过公共演讲翻译数据集的实验结果表明，对包括ASR转录本的大量并行数据进行调整对于相同类型的测试数据是有益的，但在翻译干净文本时会产生轻微恶化。在干净和嘈杂数据的同一数据上进行调整可以在两种输入类型上产生最佳结果。

Oct, 2019

神经机器翻译对输入扰动的鲁棒性评估

本文提出了衡量NMT模型抗干扰性能的一些额外指标，并针对一类使用子单词规范化方法的模型进行了广泛评估，结果表明我们提出的指标揭示了使用子单词规范化方法时抗干扰性能提高的明显趋势。

May, 2020

神经机器翻译的不确定性感知语义增强

本文提出了一种新的方式用于神经机器翻译的模型训练，通过对多个具有相同语义的源语言句子进行明确抓取通用的语义信息以提高模型性能。在各类翻译任务的实验中，本方法表现显著优于现有方法。

Oct, 2020

神经机器翻译数据增强的句子串联方法

本研究提出一种数据增强方法来处理长句子翻译问题，结果显示这一方法不仅提高了翻译质量，而且与回译方法的结合进一步改善了翻译质量。

Apr, 2021

解决神经机器翻译在输入扰动中的漏洞

本文提出了一种通过Context-Enhanced Reconstruction（CER）方法提高神经机器翻译（NMT）在噪音输入下的稳健性的方法，该方法包括通过引入人造干扰词破坏自然性来抵制噪声，并通过提供更好的上下文表示来防止噪声传播。在中英文翻译和法英文翻译任务上的实验证明本方法能够提高新闻和社交媒体文本的稳健性，并且在社交媒体文本上的进一步微调实验表明该方法可以收敛到更高的位置并提供更好的适应性。

Apr, 2021