使用代码转换增强预设翻译的神经机器翻译

Apr, 2019

使用代码转换增强预设翻译的神经机器翻译

Code-Switching for Enhancing NMT with Pre-Specified Translation

Kai Song, Yue Zhang, Heng Yu, Weihua Luo, Kun Wang...

TL;DR研究一种使用代码转换从而生成的训练数据的数据增强方法来限制大众翻译机器在本地词汇翻译方面的失误问题。

Abstract

Leveraging user-provided translation to constrain nmt has practical significance. Existing methods can be classified into two main categories, namely the use of placeholder tags for →

user-provided translation nmt code-switched training data lexicon translation fidelity

发现论文，激发创造

启用代码交替机器翻译的检查和策略

本研究探讨了多语言神经机器翻译模型处理语种混杂文本的能力，提出了一种检测方法和简单有效的数据增强方法，同时通过对注意力模块的分析证明了这些方法的有效性。

Oct, 2022

神经机器翻译的代码切换预训练

提出了一种新的预训练方法 Code-Switching Pre-training（CSP），它通过利用源语言和目标语言之间的跨语言对齐信息来预先训练神经机器翻译模型，该方法通过无监督的词嵌入映射词典识别源语言和目标语言之间的单词替换，克服了传统模型的随机屏蔽单词的缺点。实验结果表明，该方法在无监督和有监督的机器翻译任务上都取得了显著提高。

Sep, 2020

鼓励神经机器翻译满足术语限制

本文提出了一种新的方法，通过训练步骤来鼓励神经机器翻译满足词汇约束，其主要包括训练数据扩充、约束词汇掩码和交叉熵损失函数修改三个方面，实验表明该方法在 BLEU 分数和生成约束词汇的数量方面均优于其他算法。

Jun, 2021

零样本跨语言意图预测和槽填充的多语言码交换

本文提出了一种通过多语言代码切换来增强 Transformer 的语言中立性的新方法，从而解决零样本学习中在未知目标语言下预测用户意图和检测相应选项的问题，并在多个语言上对 MultiATIS ++ 数据集进行实验，相较于现有技术，平均精度提高了 + 4.2％，F1 提高了 + 1.8％。通过收集英语和海地克里奥尔语的新人工标注推文数据集，本文将该方法应用于危机信息学。

Mar, 2021

代码交替文本的机器翻译数据增强技术：比较研究

在埃及阿拉伯语 - 英语混合代码生成中，我们比较了词汇替换、语言理论和回译三种流行的增强方法，通过人工评估评估了这些方法在机器翻译上的效果和增强质量。结果显示，基于回译和基于代码交替预测的词汇替换方法在两个任务中表现最佳，而在缺少代码交替并行数据的情况下，语言理论和随机词汇替换方法实现了类似的结果。

Oct, 2023

通过渐进式代码切换改善零样本跨语言迁移

逐渐生成适度困难的混合码交换示例，以引导模型对更困难的混合码交换数据进行优化，并根据单词相关性评分设计了难度测量器、代码切换器和训练调度器。

Jun, 2024

以词义进行编码切换的神经网络机器翻译预训练

我们介绍了一种使用知识库中词义特定信息进行预训练的多语言神经机器翻译模型的端到端方法，通过实验证明了我们方法在整体翻译质量上有显著改进，并且在 DiBiMT 消歧测试中显示出了精确性改进的鲁棒性。

Oct, 2023

使用神经合成数据的混合语言模型来处理句子间的平行语言切换

为了解决训练混合语言模型的困难，本研究提出了一种基于序列 - 序列模型及 copy 机制的新型训练方法，通过有限的混合语言数据和单语数据的并行翻译生成需要的混合语言数据，且无需对齐或分析，实现了良好的表现，并显著提高了末端自动语音识别。

Sep, 2019

训练神经机器翻译应用术语约束

本文提出了一种新颖的方法，在神经机器翻译中运行时注入自定义术语。作者通过训练神经机器翻译系统学习如何在输入时使用自定义术语，并比较实验证明这种方法不仅更有效，而且与自由约束解码一样快。

Jun, 2019

对齐目标对语码转换翻译的影响

我们提出了一种训练单一机器翻译模型的方法，该模型能够将单语句从一种语言翻译成另一种语言，并能够翻译混合语句到任意一种语言，以应对社交媒体和用户生成内容的崛起带来的语种切换翻译需求。该模型可被视为与人类类似的双语模型，并通过生成合成的混合语数据以及对编码器进行对齐损失来更好地使用并行数据。在使用 WMT14 英法数据集进行训练后，所训练的模型在混合语翻译中大幅优于双向基线模型，并且在非混合语（单语）数据上保持了质量。

Sep, 2023