致敬经典：在大语言模型时代重新审视机器翻译的挑战

Jan, 2024

致敬经典：在大语言模型时代重新审视机器翻译的挑战

Salute the Classic: Revisiting Challenges of Machine Translation in the Age of Large Language Models

Jianhui Pang, Fanghua Ye, Longyue Wang, Dian Yu, Derek F. Wong...

TL;DR神经机器翻译（NMT）的进化受到六个核心挑战的显著影响，本研究重新审视这些挑战，提供有关高级大型语言模型（LLMs）背景下其持续相关性的见解：领域不匹配、平行数据量、罕见词预测、长句翻译、注意力模型作为词对齐以及次优束搜索，我们的实证发现表明LLMs在主要语言的预训练阶段有效减少对平行数据的依赖，LLM基于的翻译系统显著提高了包含大约80个单词的长句翻译，并且可翻译长度达512个单词的文档。然而，尽管取得了显著改进，领域不匹配和罕见词预测的挑战仍然存在。虽然与NMT特定相关的词对齐和束搜索的挑战可能不适用于LLMs，但我们确定了LLMs在翻译任务中面临三个新的挑战：推理效率、预训练阶段对低资源语言的翻译以及人对齐评估。数据集和模型在此https URL上发布。

Abstract

The evolution of neural machine translation (NMT) has been significantly influenced by six core challenges (Koehn and Knowles, 2017), which have acted as benchmarks for progress in this field. This study revisits these challenges, offering insights into their ongoing relevance in the c