Jun, 2024

多语言大型语言模型的多语言指导调优是否有效数据?还是仅仅是对多语言评估的不良表现?

TL;DR大型语言模型,特别是多语言模型,设计、声明和预期为各种语言的母语用户提供服务。本文研究了这些模型的微调和评估方法可能与此意图不符的问题,提出了翻译可能引入翻译异常和缺陷的观点,并探讨了指令数据的性质是否对模型输出产生影响以及翻译的测试集能否捕捉到这种细微差别。实验结果表明,使用原生或生成式基准数据时,原生或翻译的指令数据对模型输出存在显著差异,尤其在模型性能较高时,而其他类型的测试集则无法显示这种差异。最后,我们证明正则化对于填补结构化任务中的差距是有益的,但对生成式任务则不是。