Jun, 2021

测量分类器准确性对人工标签等值性的程序

TL;DR在调查设置中,我们描述了一种过程,它能将分类器的准确度从混淆了分类器质量与人类评分一致性的惯常测量中重估为具有直观解释的测量。通过将分类器与单个人类评级者进行比较,可以比较预测者得分尤其是由多个人类评级者标记结果的预测者得分,所以此过程中的关键洞察力是将分类器评分不与评分者的大多数共识之类的最佳地面实况代理进行比较,而是一次与单个人类评级者进行比较。在此过程中,我们定义了调查等效性,即需要多少评分者才能产生与分类器相同的期望得分。