Jan, 2024

数据集难度与归纳偏差的作用

TL;DR通过对随机和受控因素的比较,我们发现例子排名在不同的训练运行、评分方法和模型架构间存在很大的一致性。同时,我们还开发了一种简单的方法来使用一些敏感的例子对模型架构进行指纹识别。这些发现指导从业者在最大化评分一致性方面(例如通过选择适当的评分方法、运行次数和例子子集)并为将来评估评分建立全面的基准。