Jan, 2024

使用对比校准指示为未见过的低资源语言中的机器翻译调整LLMs

TL;DR该研究引入对比对齐指令(AlignInstruct)来解决机器翻译在大型语言模型上的两个挑战,即将支持的语言扩展到之前未曾见过的语言和低资源语言中数据匮乏问题。通过机器翻译指令(MTInstruct)对模型进行微调是解决第一个挑战的一种简单方法。然而,MTInstruct 受第二个挑战中固有的弱跨语言信号的限制。AlignInstruct 强调通过使用统计词对齐构建的跨语言鉴别器进行跨语言监督。研究结果表明,对BLOOMZ模型(1b1,3b和7b1)在多达24种未见过的语言上进行微调,得出以下结论:(1)LLM可以有效地使用MTInstruct对未见过的语言进行翻译;(2)AlignInstruct在涉及英语的48个翻译方向上改进了翻译质量的一致性;(3)基于鉴别器的指令表现优于其生成的对等物作为跨语言指令;(4)AlignInstruct在30个零翻译方向上改善了性能。