ACLApr, 2024

语料库考虑注释模型的建立与扩展

TL;DR旨在全面涵盖多样性的标注任务中,仅依赖于大多数类别标签的模型可能会无意中忽视宝贵的少数派观点,因此需要探索各种标注者建模技术的有效性,并比较它们在七个语料库中的性能。通过研究发现,常用的用户标记模型始终胜过更复杂的模型,并引入了一种复合嵌入方法,展示了模型性能与给定数据集的一致性之间的明显差异。这些发现揭示了语料统计和标注者建模性能之间的关系,为语料构建和多视角自然语言处理的未来工作提供了启示。