Jun, 2024

PARIKSHA:多语言和跨文化数据上人类 LLM 评估者一致性的大规模调查

TL;DR本研究评估了多语种大型语言模型的性能,发现 GPT-4o 和 Llama-3 70B 模型在大多数 Indic 语言中表现最佳。我们构建了两个评估设置的排行榜,并分析了人类评估和语言模型评估之间的一致性,发现在两两比较的设置下,人类和语言模型的一致性较高,但在直接评估中特别是对于孟加拉语和奥迪亚语等语言,一致性下降。我们还检测了人类和语言模型评估中的各种偏见,并发现 GPT 评估器存在自我偏见。本研究对多语种大型语言模型的评估具有重要意义。