May, 2024

透视者的范式转变:对捕捉人工标签的假设和挑战

TL;DR对于机器学习中的数据标注,多年来一直采用从多个标注者那里收集和汇总标签的方法。然而,当标注者不一致时,我们应该怎么办呢?尽管长期以来,标注者的不一致被视为需要最小化的问题,但新的观点主义方法质疑这一假设,将不一致视为宝贵的信息源。本文中,我们研究了有关标注者不一致的实践和假设,一些是受观点主义方法的挑战,一些是待解决的问题,以及基于这些假设进行工作的实际和规范性挑战。我们最后提出了对数据标注流程的建议,并探索与主观性和不一致性有关的未来研究方向。