Jan, 2021

在信息检索评估中追求有意义的陈述:将评估指标映射到区间刻度

TL;DR通过实验评估,我们发现对于信息检索中评价方法的大多数流行度量标准进行区间缩放可以显著影响结果的可靠性,使不显著差异变得显著,并导致决策结果发生了 25% 左右的变化。