Feb, 2024

LLM翻译中的重要语言特征和语言

TL;DR基于大型语言模型(LLMs),本研究评估了Llama2在机器翻译方面的能力,并探讨了对训练数据中语言的依赖性。实验证明,7B规模的Llama2模型对其已见过的所有语言都具有10 BLEU分数以上,但对未见过的语言不一定如此。我们的语言距离分析表明,句法相似性并非决定翻译质量的主要语言因素。有趣的是,我们发现在特定条件下,某些语言虽然训练数据明显少于英语,却与英语具有可比较的强相关性。本研究结果为目前LLMs的发展提供了新的视角,提出了以非英语语言为中心构建多语言模型的可能性。