Jun, 2024

VarBench: 动态变量扰动下的鲁棒语言模型基准测试

TL;DR通过提出变量扰动方法,从每个测试用例中提取变量,并为每个变量定义一个值范围,以确保每次评估都是新鲜的,从而解决了基准数据泄漏和数据污染问题,提供了更准确评估语言模型真实能力的方法。