无地面真实数据情况下对众包参与者的评估
本文研究了在线辅导平台上对话的困扰个体的情绪估计的主观评估任务,探讨了聚合评估者选择的策略,展示了一个简单的投票共识与优化聚合方法在这个任务中同样有效,并设计了一种机器学习算法来执行相同的任务。有趣的是,我们观察到了一个没有明确建模评估者主观性的机器学习算法,在评估最主要的情绪时与人类评估一样可靠。
Jun, 2019
本篇文章提出了使用 CrowdTruth 衡量指标来有效地收集多领域多任务的 ground truth 数据,比传统的投票方式更具优势,并研究了人数增加对标注质量的影响。
Sep, 2018
本文通过实验展示了人群智力数据集在自然语言理解中的存在问题和缺陷,建议在数据集创建过程中监控注释者的偏见,测试集注释者应该与训练集注释者无交集。
Aug, 2019
使用 CrowdTruth 方法通过众包获得医疗关系提取的注释数据集,并通过建模歧义性提高数据质量并减少成本,展示了在人类和机器性能方面均考虑歧义性时的加权测量精度、召回率和 F 度量的优势。
Jan, 2017
本文提出了一种基于贝叶斯图形模型的技术,用于有效地处理高度冗余注释数据,相比于多数真实推断模型,我们的方法得出了更优质的结果。
Feb, 2019
这篇研究论文介绍了一种新的基于概率图形框架的群体偏差建模方法,以及用于捕捉同一人群内标注员偏倚影响标注结果的训练算法,该方法在实验证明了其在标签汇聚和模型学习方面的有效性。
Oct, 2021
本文探讨半监督众包分类在标签约束和实例约束两种情况下的贝叶斯算法,该算法基于变分推断,可以比无监督众包分类更有效地对人工注释信息进行聚合,该算法在多个众包数据集上的分析和实证验证了其表现的可量化提升。
Dec, 2020
通过众包标注系统和基于伪标签和对比学习的新方法,解决了由于用户知识、文化背景差异和获得监督信息的高成本而导致的标注信息不充分和含糊不清的问题,实现了半监督部分标签学习的最先进表现。
Oct, 2022
基于主观分类任务,我们提出了适用于文本的 Annotator Aware Representations (AART) 方法,旨在改善采集标注者观点性能,并学习标注者行为特征。
Nov, 2023