Jun, 2024

通过仅使用平行数据训练的大型语言模型研究翻译能力

TL;DR本研究引入了PLUME(Parallel Language Model),该模型是由三个2B LLMs组成,采用不同词汇量(32k、128k和256k),并且完全基于加泰罗尼亚语为中心的平行语料进行训练。这些模型在16个有监督翻译方向和56个零样例下的翻译性能与之前的编码解码架构相当。利用这些模型,我们对LLMs的翻译能力进行了全面调查,探究其性能、提示的不同元素以及跨语言表示空间的影响。