神经机器翻译快速适应新语言

EMNLPAug, 2018

Rapid Adaptation of Neural Machine Translation to New Languages

Graham Neubig, Junjie Hu

TL;DR本文提出了針對低資源語言進行神經機器翻譯系統適應的策略，基於大規模的多語言種子模型，通過將訓練擴展到相關低資源語言數據上，與高資源語言一起進行聯合訓練，實現了相似語言正則化策略，實驗表明在 4 個低資源語言環境下，BLEU 得分平均提高了 1.7。

Abstract

This paper examines the problem of adapting neural machine translation systems to new, low-resourced languages (LRLs) as effectively and rapidly as possible. We propose methods based on starting with massively mu

neural machine translation low-resourced languages massively multilingual seed models similar-language regularization bleu scores

发现论文，激发创造

利用词汇相似性实现极低资源语言的零 - shot 机器翻译

本篇论文讨论了如何利用字符噪声注入方法，将近乎无资源语言翻译成英文，使其更能够适应高资源语言，并在多种语言家族的紧密相关语言对中得到了显著的优异表现。

May, 2023

低资源翻译的广义数据增强

本论文提出了一种在低资源机器翻译中进行数据增强的通用框架，该框架不仅使用目标端单语数据，还通过相关高资源语言进行桥接，通过在两个步骤中使用词典和修改无监督机器翻译框架，将高资源数据转换为低资源语言，实验证明该方法在极低的资源条件下，与受监督背景转换基线相比，可将翻译质量提高 1.5 到 8 个 BLEU 点。

Jun, 2019

五种非洲语言低资源神经机器翻译基准

研究了最近神经机器翻译 (NMT) 在英语和五种非洲低资源语言 (LRL) 对之间的效果，并表明多语言模型 (multilingual approach) 在某些翻译方向上有 +5 分数的提升。同时，提供标准的实验数据和测试集以供未来的研究使用。

Mar, 2020

Letz Translate: 用于卢森堡语的低资源机器翻译

本文介绍了一种使用知识蒸馏技术以及基于高资源语言的资源有效模型实现低资源语言机器翻译的方法。在以卢森堡语为例子的实验中，资源有效模型相比于大型 NLLB 模型速度提高了 30％以上且性能仅下降了 4％。

Mar, 2023

将高资源 NMT 模型应用于低资源相关语言的翻译，不需要平行数据

本论文研究如何使用语言重叠来进行翻译，在仅有少量单语数据的情况下，结合去噪自编码、回译和对抗性目标，提出了一种名为 NMT-Adapt 的方法，实现了对低资源语言的翻译的提高。

May, 2021

优化多语言大型语言模型的语言增强：以韩文为例的案例研究

本研究提出了三种策略以增强不太具备资源的语言在大型语言模型中的表现：扩展词汇表、使用双语数据进行预训练以对齐高资源语言和低资源语言、构建高质量的小规模指令数据集并进行指令微调。通过对比八个任务的其他大型语言模型，在质量分析中，我们的提出的 Bllossom 模型表现出优异的性能。

Mar, 2024

利用语言相关性进行低网络资源语言模型适应：印度语言研究

本文针对印度语言中不足文本资源的问题，提出了一种称为 RelateLM 的利用相关语言作为中间媒介的方法，通过音译和数据增强等技术，将限制资源语言文本转化到具备足够语料的相关语言中间站，从而提高多语言模型的适用性。

Jun, 2021

神经网络语言模型的增量适应策略

本文提出了两种优化神经网络语言模型适应新数据的方法，包括在重新采样数据上进行继续训练或插入适应性层。在 CAT 环境中应用于 SMT 系统中，这两种方法均取得了显著的改进。

Dec, 2014

低资源语言的机器翻译性能预测：领域相似性的作用

对于低资源语言（LRLs）来说，微调和测试多语言大型语言模型是昂贵和具有挑战性的。我们调查了微调语料库的大小、微调和测试语料库之间的领域相似性以及源语言和目标语言之间的语言相似性对模型性能的影响，结果表明领域相似性对机器翻译模型性能的预测有最重要的影响。

Feb, 2024

利用大语言模型学习低资源语言的翻译质量评估

使用大型语言模型，无需人工注释，将合成数据集混合到现有数据集中，可以提高低资源语言的 BLEURT 模型性能。

Feb, 2023