具有联合文本和语音嵌入的强大的神经机器翻译

Oct, 2018

具有联合文本和语音嵌入的强大的神经机器翻译

Robust Neural Machine Translation with Joint Textual and Phonetic Embedding

Hairong Liu, Mingbo Ma, Liang Huang, Hao Xiong, Zhongjun He

TL;DR本篇论文研究了神经机器翻译中的一种特殊噪声-同音替换，提出将源语言句子的文本和音素信息进行联合嵌入，并使用同音替换扩充训练数据集来提高模型对同音替换的鲁棒性，实验结果表明，放置在音素信息上的大多数权重可能比文本信息更有利于提高翻译质量和模型鲁棒性。

Abstract

neural machine translation (NMT) is notoriously sensitive to noises, but noises are almost inevitable in practice. One special kind of noise is the homophone noise, where words are replaced by other words with th

发现论文，激发创造

合成和自然噪声都会破坏神经机器翻译

本文研究了基于字符的神经机器翻译模型，并发现它们能够解决词表外的问题、学习词形变化，但是在面对嘈杂的数据时容易出现错误。作者探究了两个方法来提高模型的鲁棒性：结构不变的词表示和在噪声数据上强化训练。作者发现一个基于字符卷积神经网络的模型能够同时学习多种噪声下的鲁棒表示。

Nov, 2017

来自非母语者的文本的神经机器翻译

本研究研究神经机器翻译系统中的数据噪声问题以及如何通过增加包含人工引入的语法错误句子的训练数据来提高其对错误的鲁棒性，同时提出了一套用于测试神经机器翻译在处理语法错误上的JFLEG语法纠错语料库的西班牙语翻译。

Aug, 2018

提高语音翻译的稳健性

提出了一种简单且有效的方法来改进神经机器翻译在语音翻译中的稳健性，通过在干净的平行数据集中注入真实输出中存在的噪声以及结合拼音特征，使NMT可以在类似的单词分布下进行训练和测试，实验结果表明，该方法在多个噪声测试集上的稳定性表现优异，并在WMT'17中英测试集上取得了泛化性能的提高。

Nov, 2018

通过合成噪声训练，提高机器翻译的抗自然噪声鲁棒性

本文提出通过引入随机合成的少量噪音来改善机器翻译中源文本字符级别波动的鲁棒性，从而提高对拼写错误等变异的覆盖率。作者表明，通过在训练时使用一些较为简单的合成噪音，可以实现对常见噪音（例如Wikipedia编辑日志中的修正）的鲁棒性，同时不会降低在规范文本上的表现。

Feb, 2019

通过数据增强提高神经机器翻译的鲁棒性：超越回译

本文探讨了神经机器翻译以及如何提高其对于噪声输入的鲁棒性，提出了新的数据扩充方法以及通过利用外部数据中的噪声来加强模型鲁棒性。

Oct, 2019

干净与嘈杂语音转录的强健神经机器翻译

本文研究如何使强NMT系统适应典型ASR错误，并提出适应策略以训练单一系统，能够在无监督输入类型的情况下翻译干净或嘈杂的输入。通过公共演讲翻译数据集的实验结果表明，对包括ASR转录本的大量并行数据进行调整对于相同类型的测试数据是有益的，但在翻译干净文本时会产生轻微恶化。在干净和嘈杂数据的同一数据上进行调整可以在两种输入类型上产生最佳结果。

Oct, 2019

神经机器翻译对输入扰动的鲁棒性评估

本文提出了衡量NMT模型抗干扰性能的一些额外指标，并针对一类使用子单词规范化方法的模型进行了广泛评估，结果表明我们提出的指标揭示了使用子单词规范化方法时抗干扰性能提高的明显趋势。

May, 2020

重新审视鲁棒神经机器翻译：基于Transformer的案例研究

本文介绍了一种名为TAFT的数据驱动技术，它利用fine-tuning策略加入噪声训练Transformer模型，并提出了两种新型技术CD和DCD以帮助模型更好地处理噪声，最终在英德翻译语料中实现更高的鲁棒性。

Dec, 2020

解决神经机器翻译在输入扰动中的漏洞

本文提出了一种通过Context-Enhanced Reconstruction（CER）方法提高神经机器翻译（NMT）在噪音输入下的稳健性的方法，该方法包括通过引入人造干扰词破坏自然性来抵制噪声，并通过提供更好的上下文表示来防止噪声传播。在中英文翻译和法英文翻译任务上的实验证明本方法能够提高新闻和社交媒体文本的稳健性，并且在社交媒体文本上的进一步微调实验表明该方法可以收敛到更高的位置并提供更好的适应性。

Apr, 2021

跨语言零样本条件下多语言语言模型对现实世界噪声的鲁棒化：基于鲁棒对比度预训练的方法

提出一种预处理方法(Robust Contrastive Pretraining)，将数据扩增和对比损失项结合，以提高多语言分类任务中现有预训练模型(Robust Contrative Pretraining，RCP)的稳健性，并在两个句子水平和两个序列标注多语言分类任务中取得了显著提高。

Oct, 2022