BriefGPT.xyz
Sep, 2024
作为评审的LLM与奖励模型:它们能做什么,不能做什么
LLM-as-a-Judge & Reward Model: What They Can and Cannot Do
HTML
PDF
Guijin Son, Hyunwoo Ko, Hoyoung Lee, Yewon Kim, Seunghyeok Hong
TL;DR
本研究主要探讨了作为评审的LLM和奖励模型在非英语环境中的有效性,填补了相关研究的空白。我们发现,英语评估能力往往对语言特定能力产生更大影响,而LLM在识别和惩罚实事求是错误及文化错位等方面存在显著不足。此外,本文发布了Kudge,这是一份包含5012个韩文人类注释的非英语元评估数据集。
Abstract
LLM
-as-a-Judge and reward models are widely used alternatives of multiple-choice questions or human annotators for large language model (
LLM
)
eva
→