Sep, 2024

作为评审的LLM与奖励模型:它们能做什么,不能做什么

TL;DR本研究主要探讨了作为评审的LLM和奖励模型在非英语环境中的有效性,填补了相关研究的空白。我们发现,英语评估能力往往对语言特定能力产生更大影响,而LLM在识别和惩罚实事求是错误及文化错位等方面存在显著不足。此外,本文发布了Kudge,这是一份包含5012个韩文人类注释的非英语元评估数据集。