Feb, 2025

超越一刀切:高效评估的定制基准

TL;DR本研究解决了在模型快速演变期间,大型基准评估的资源消耗问题,尤其是现有方法在目标模型与源模型之间不一致时的表现。我们提出了TailoredBench方法,通过为每个目标模型定制评估,显著提高了准确率估计的有效性,实验表明在相同推断预算下,MAE准确率估计平均减少了31.4%。