Jan, 2024

ANGO:面向中文领域的下一级生成导向语言模型评估基准

TL;DR这篇文章介绍了中国的一种多选题评估基准 ANGO,通过引入关键点分类标准,将每个问题与多个关键点对应,从而有效提高评估结果的可解释性。基于真人表现,我们构建了可量化的问题难度标准,并将 ANGO 问题分为 9 个难度级别,为模型训练提供更精确的指导。为了最小化数据泄露的影响并充分利用 ANGO 的创新特性,我们设计了独家的采样策略和新的评估框架,支持快速的测试集迭代。我们的实验证明,与现有基准相比,ANGO 对模型提出了更大的挑战,并在评估结果中展示了更多细节。