Jul, 2024

通过持续预训练并行数据提高大型语言模型的翻译准确性

TL;DR通过两阶段训练方法,即不断在并行数据上预训练大型语言模型并在少量高质量并行数据上进行有监督微调,我们证明了这种方法的有效性。我们的研究表明,在并行数据的持续预训练中,在源句和目标句之间交替使用是至关重要的。此外,我们还证明了基于LLM的翻译模型在口语语言翻译中更加稳健,在使用更少的训练数据时可以达到更高的准确性,相较于有监督的编码器-解码器模型。最高的准确性在于持续预训练数据包括交替的源句和目标句以及在源句中添加标签时实现。