Oct, 2022

研究 AUC 指标的失效模式并探索安全关键应用系统评估的替代方法

TL;DR本研究提出了三个度量指标来解决现有度量指标在选择性回答方面存在的局限性,实验结果表明,性能更好的选择性回答模型并不一定是较新或较大的预训练模型。这些发现有望促进针对安全关键应用的更好模型的发展。