Jan, 2024
致敬经典:在大语言模型时代重新审视机器翻译的挑战
Salute the Classic: Revisiting Challenges of Machine Translation in the
Age of Large Language Models
TL;DR神经机器翻译(NMT)的进化受到六个核心挑战的显著影响,本研究重新审视这些挑战,提供有关高级大型语言模型(LLMs)背景下其持续相关性的见解:领域不匹配、平行数据量、罕见词预测、长句翻译、注意力模型作为词对齐以及次优束搜索,我们的实证发现表明LLMs在主要语言的预训练阶段有效减少对平行数据的依赖,LLM基于的翻译系统显著提高了包含大约80个单词的长句翻译,并且可翻译长度达512个单词的文档。然而,尽管取得了显著改进,领域不匹配和罕见词预测的挑战仍然存在。虽然与NMT特定相关的词对齐和束搜索的挑战可能不适用于LLMs,但我们确定了LLMs在翻译任务中面临三个新的挑战:推理效率、预训练阶段对低资源语言的翻译以及人对齐评估。数据集和模型在此https URL上发布。