Oct, 2024

MM-Eval:一种多语言元评估基准,用于将大型语言模型作为评审者和奖励模型

TL;DR本研究针对大型语言模型在非英语环境中作为评估工具效果不足的问题,提出了一个多语言的评价基准MM-Eval,该基准覆盖了18种语言和六种类别。研究发现,现有语言模型在非英语评估中的效能有显著提升空间,并且存在对低资源语言给予中间分数的倾向。