提升多对多多语言机器翻译的方法与大型语言模型

Jan, 2024

提升多对多多语言机器翻译的方法与大型语言模型

Towards Boosting Many-to-Many Multilingual Machine Translation with Large Language Models

Pengzhi Gao, Zhongjun He, Hua Wu, Haifeng Wang

TL;DR本文研究了机器翻译的训练模型，从学习具有广泛平行语料的神经机器翻译模型逐渐转变为在预训练的多语言大型语言模型上进行指导微调，并重点关注增强多对多多语言翻译性能和零 - shot 翻译方向的。我们证明了在指导微调过程中采用的提示策略对零 - shot 翻译性能至关重要，并引入了跨语言一致性正则化（CrossConST）的版本，即 XConST，以弥合不同语言之间的表示差距并提高零 - shot 翻译性能。在 ALMA 和 LLaMA-2 的实验结果表明，我们的方法持续改善了翻译性能。我们的实现代码可以在此 https URL 上找到。

Abstract

The training paradigm for machine translation has gradually shifted, from learning neural machine translation (NMT) models with extensive parallel corpora to instruction finetuning on pretrained multilingual larg

machine translation neural machine translation multilingual large language models zero-shot translation cross-lingual consistency regularization

发现论文，激发创造

利用跨语言一致性正则化提升零样本多语言神经机器翻译

本文介绍了一种跨语言一致性正则化方法 CrossConST，用于在多语言神经机器翻译模型中实现零 - shot 翻译，以实现不同语言之间的普适表示，并提高翻译性能。实验结果证明 CrossConST 能够提高模型的翻译性能并降低句子表示间的差距，为未来的多语言 NMT 研究奠定了基础。

May, 2023

机器翻译的范式转变：提升大型语言模型的翻译性能

通过提出一种新的微调方法，我们设计了一种面向翻译任务的先进语言模型的翻译器 ALMA，该模型在 WMT'21 和 WMT'22 的测试数据集上相比于之前的工作和具有 7B 或 13B 参数的模型有着显著性能提升，并为机器翻译领域的新的训练范式奠定了基础。

Sep, 2023

大型语言模型在翻译中的多语言程度如何？

通过在平行文本上对大型语言模型 (LLM) 进行微调，新的机器翻译范式已被证明能够胜过使用大量平行数据以监督方式训练的专用翻译系统，然而，对于大规模多语言机器翻译，是否需要对少数语言对进行专门的模型微调仍然不清楚。本研究通过对 TOWER 系列语言模型在 132 个来自多语言平行数据 FLORES-200 的翻译任务上进行实证评估，发现翻译微调即使对于零样本语言平均而言也会提高翻译质量，但其影响因所涉及的语言对而异。这些结果呼吁进一步研究以有效实现大规模多语言翻译。

May, 2024

增强大型语言模型的翻译能力的新范式

本文介绍了一项关于增强大型语言模型（LLMs）在机器翻译（MT）任务中翻译能力的研究，提出了一个包括三个阶段的新范 Paradigm，通过使用大量的单语数据进行二次预训练、使用互译文本格式文档进行连续预训练，以及利用和源语言一致的指导来进行监督微调。实验结果表明，我们的方法在翻译能力方面取得了显著的改进，超过了以前的工作，并在参数数量较小的情况下实现了优越的性能。

Mar, 2024

通过使用翻译指示进行多语言微调，引发大型语言模型的翻译能力

本篇论文通过对一个多语种预训练语言模型 XGLM-7B 进行微调并给出指示进行多语种翻译的实验，展示了预训练语言模型在翻译任务中的较强能力，并发现其翻译能力依赖于对翻译指令的理解和语言之间的对齐，研究结果可启发模型改进。

May, 2023

为实现零样本神经机器翻译最大化利用多语言预训练

论文证明多语言预训练和微调策略对于零 - shot 翻译是至关重要的，本文提出了一个强大的多语言翻译模型 SixT+，支持 100 多种源语言，并实现了在不同翻译任务中的最好表现。

Oct, 2021

使用大语言模型引导多语言语义分析器

使用大型语言模型通过少量提示将英文数据集转化为多种语言，以实现多语言语义解析，并在两个公共数据集上与传统的翻译 - 训练方法进行比较，表明使用 LLM 更有效。

Oct, 2022

大语言模型的多语言机器翻译：实证结果和分析

本文系统地研究了大型语言模型在多语言机器翻译中的优势和挑战，并在 102 种语言上评估了 XGLM、OPT、BLOOMZ 和 ChatGPT 四种常见模型的性能。在进一步分析中，本文发现大型语言模型在多语言机器翻译中具有一些新的工作方式。

Apr, 2023

多语言神经机器翻译中的 ACT-MNMT 自动收敛调节

本文引入了一种自动约束模板的机制，名为 Auto-Constriction Turing Mechanism for Multilingual Neural Machine Translation (model)，它是一种新颖的监督微调机制，并与传统基于提供的方法截然不同。在该方法中，model 通过在目标端添加触发标记构建了一个约束模板，并且可以自由组合和更新触发标记以表示不同的任务语义，实验证明 model 在多个翻译方向上显著提高了性能，并减少了翻译中的目标错误现象。

Mar, 2024

构建准确的基于翻译的语言感知 LLMS 的指导调优

通过两阶段微调算法，改进了大型语言模型（LLMs）遵循翻译指示的能力，特别是翻译方向信息，从而有效降低了错位翻译比率（平均降低 53.3%），提高了翻译质量（平均增加 5.7 SacreBLEU 和 16.4 BLEURT）。

Mar, 2024