Jun, 2024
PARIKSHA:多语言和跨文化数据上人类LLM评估者一致性的大规模调查
PARIKSHA : A Large-Scale Investigation of Human-LLM Evaluator Agreement
on Multilingual and Multi-Cultural Data
TL;DR本研究评估了多语种大型语言模型的性能,发现GPT-4o和Llama-3 70B模型在大多数Indic语言中表现最佳。我们构建了两个评估设置的排行榜,并分析了人类评估和语言模型评估之间的一致性,发现在两两比较的设置下,人类和语言模型的一致性较高,但在直接评估中特别是对于孟加拉语和奥迪亚语等语言,一致性下降。我们还检测了人类和语言模型评估中的各种偏见,并发现GPT评估器存在自我偏见。本研究对多语种大型语言模型的评估具有重要意义。