Jan, 2024

在源语言中迷失:大型语言模型如何评估机器翻译的质量

TL;DR大型语言模型在机器翻译评估任务中取得了显著的成果,然而关于它们如何利用提供的数据进行评估仍存在知识空白。本研究旨在探索大型语言模型如何利用源语言和参考信息进行评估,从而更好地理解大型语言模型的工作机制。通过设计不同的输入模式和模型类型进行受控实验,并使用粗粒度和细粒度提示来识别源语言与参考信息的有效性,我们惊讶地发现参考信息显著提高了评估准确性,而源语言信息有时会适得其反,表明在使用大型语言模型评估翻译时缺乏跨语言能力。我们还对大型语言模型的翻译错误检测进行了元评估,观察到类似的现象。这些发现也为充分利用大型语言模型的跨语言能力以在机器翻译评估任务中取得更好性能提供了潜在的研究方向。