通过利用翻译记忆进行检索增强机器翻译的优化示例选择

May, 2024

通过利用翻译记忆进行检索增强机器翻译的优化示例选择

Optimizing example selection for retrieval-augmented machine translation with translation memories

Maxime Bouthors, Josep Crego, François Yvon

TL;DR检索增强机器翻译通过检索类似实例的翻译记忆，以条件化神经解码器的预测。我们的目标是改进上游检索步骤，并考虑固定下游基于编辑的模型：多 Levenshtein Transformer。该任务是找到一组能够最大化源句子整体覆盖率的例子。为此，我们依赖于次模函数的理论，并探索优化这种覆盖的新算法。我们评估这些性能改进对机器翻译任务的影响。

Abstract

retrieval-augmented machine translation leverages examples from a translation memory by retrieving similar instances. These examples are used to condition the predictions of a neural decoder. We aim to improve th

retrieval-augmented machine translation translation memory neural decoder multi-levenshtein transformer submodular functions

发现论文，激发创造

基于多 Levenshtein Transformer 的基于例子的神经机器翻译模型

提出了一种新颖的基于检索增强的 Levenshtein Transformer 架构，旨在提高 Retrieval-Augmented Machine Translation 的透明度，并通过编辑多个模糊匹配的示例来改善翻译得分。

Oct, 2023

检索增强的神经机器翻译中的从内存中检索示例：系统性比较

通过实验研究了不同的检索方法对几种翻译体系结构的影响，以更好地理解检索和生成两个过程之间的相互作用。研究表明，检索技术的选择会影响翻译结果，且不同体系结构之间存在方差。此外，研究还探讨了增加示例数量和多样性的效果，普遍上是积极的。

Apr, 2024

多特征机器翻译中的上下文示例选择

本文提出了一种基于回归函数的实例选择方法，结合了多种影响例子选择的因素，可以显著提高翻译质量，平均提高超过 2.5 个 COMET 点。

May, 2023

基于语言模型检索的多语言少样本学习

本文在多语言和交叉语言设置下，通过全面研究检索语义相似的少样本示例的方法来提升 Transformer 模型在自然语言理解任务中的性能。结果表明该方法在英语以外的单语言和交叉语言任务中均优于随机抽样。

Jun, 2023

具有对比翻译记忆的神经机器翻译

本文提出了一种新的检索增强 NMT 模型，用于对比检索翻译记忆，利用 Hierarchical Group Attention 模块和 Multi-TM contrastive learning 目标函数增加多层面信息收益，实验结果表明，该模型在基准数据集上优于现有算法。

Dec, 2022

通过建议重排序提高检索增强翻译的稳健性

使用翻译记忆进行模糊匹配的神经机器翻译系统，存在与测试数据不匹配的领域问题。作者提出了一种简单的方法，在训练期间暴露模糊匹配，从而使系统对与测试数据不匹配的翻译记忆具有更好的容错性，并且该模型在使用相关翻译记忆的情况下仍然具有竞争力。

Oct, 2022

句子编码的智能翻译记忆匹配和检索

介绍了一种利用句子编码技术来提升翻译记忆系统中匹配与检索效率的方法，有效地解决了基于编辑距离算法的局限性。

Apr, 2020

利用检索到的翻译片段指导神经机器翻译

通过搜索引擎检索以前见过的语句，然后提取这些语句中与源语句匹配的 $n$-grams 以实现将历史翻译例子加入到神经机器翻译模型中，因此提高翻译效果。

Apr, 2018

基于单语翻译记忆的神经机器翻译

本研究提出了一种新的框架，使用单语记忆并以跨语言方式进行可学习的记忆检索，以增强神经机器翻译性能，并展示其在较低资源和领域适应情况下的有效性。

May, 2021

将翻译记忆集成到非自回归机器翻译中

本文研究利用 Translation Memory 对 Levenshtein Transformer 进行改进来进行非自回归机器翻译，通过调整数据表示和引入额外的删除操作，提高了解码效率。同时讨论了利用 Translation Memory 训练模型的方法，减少了多模态问题，无需使用知识蒸馏。

Oct, 2022