Apr, 2024

METAL:面向多语言元评估

TL;DR我们提出了一个针对多语言情景下LLMs作为评估器的端到端评估框架,并创建了一个用于评估LLM-based评估器的精心策划的数据集,该数据集覆盖10种语言,包含本族语言者对摘要任务的判断。我们比较了基于GPT-3.5-Turbo、GPT-4和PaLM2创建的LLM-based评估器的性能,结果表明,基于GPT-4的LLM-based评估器在各种语言中表现最好,而GPT-3.5-Turbo的表现不佳。此外,我们对LLM-based评估器提供的推理进行分析,发现它往往与人类评判所提供的推理不一致。