Oct, 2024

多语言基准的污染报告

TL;DR本研究解决了大语言模型(LLM)预训练或后训练数据中基准污染的问题,影响评估结果并掩盖模型能力。我们使用 Black Box 测试分析了 $7$ 个流行的多语言基准在 $7$ 个知名开源和闭源 LLM中的污染情况,几乎所有模型均显示出与测试的基准有关的污染迹象。这一发现将帮助学术界确定最佳的多语言评估基准。