Jun, 2024

从 LLM 基准混合中获得群体智慧的 MixEval

TL;DR提出了一种新的评估大型语言模型的方法 MixEval,通过混合现有的基准测试以匹配来自网络的查询与现有基准测试中的相似查询,建立了有效和可靠的 LLM 评估标准,进一步构建了 MixEval-Hard,为模型改进提供了更大的空间。