Oct, 2024

大型语言模型是否是用户生成内容机器翻译的最佳质量评估工具?

TL;DR本文探讨了大型语言模型(LLMs)在无参考翻译的情况下,是否能够作为用户生成内容(UGC)机器翻译的最先进质量评估工具。研究表明,经过参数高效微调(PEFT)的大型语言模型在质量预测方面表现优于微调模型,具有人类可解释的评分,但分析也指出其在评估UGC机器翻译的过程中仍存在输出不稳定和拒绝响应等问题。