ACLOct, 2021

比平均水平更好:自然语言处理系统的成对评估

TL;DR本 paper 探讨了语言处理领域中评估模型常使用的平均值等聚合方法存在的缺陷,并通过理论与实验证明采用基于对比的聚合方法如测量模型间比较的 Bradley-Terry(BT)模型可以更好的反映模型之间的差异。最后,研究提供了一个可供实用的工具来辅助基于 BT 方法进行实验评估。