带有约束条件的贝叶斯众包
本文提出了一种基于贝叶斯图形模型的技术,用于有效地处理高度冗余注释数据,相比于多数真实推断模型,我们的方法得出了更优质的结果。
Feb, 2019
本论文提出一种有监督的集成分类算法,旨在确定训练数据(例如,具有已知标签的项目)中可靠的标注者(即加权因子),使用马鞍点算法来确定每个标注者的可靠性,研究结果表明,有监督的方法可以比无监督的方法获得更好的分类准确性,而我们提出的方法优于其他算法。
Jul, 2015
本研究旨在提出两种基于中华餐厅过程 (CRP) 先验概率和分层结构的全新无监督模型,以更好地处理众包数据标注中用户注释的质量问题,并利用 Gibbs 采样的高效推理算法对其进行实验验证。
Jul, 2014
通过众包标注系统和基于伪标签和对比学习的新方法,解决了由于用户知识、文化背景差异和获得监督信息的高成本而导致的标注信息不充分和含糊不清的问题,实现了半监督部分标签学习的最先进表现。
Oct, 2022
本文提出了一种基于 EM 算法和众包技术的神经网络训练模型,能够直接从多个标注者的嘈杂标签数据中进行有监督学习,并能够捕捉不同标注者的可靠性和偏见,最终在多个领域获得了新的最优结果。
Sep, 2017
提出一种新的算法来联合建模标签和工作者质量,从带有噪声的众包数据中学习,可优化有限的标注资源,解决如何从噪声工作者中学习以及如何分配标注预算来最大化分类器性能等问题。
Dec, 2017
本研究提出了一种用于聚合序列标记的贝叶斯方法,该方法通过对注释者的误差和模拟注释的困难度进行建模,有效地减少了常见的跨度注释错误。 通过在命名实体识别,信息抽取和论证挖掘方面进行 crowdsourced 数据的评估,表明我们的序列模型优于以前的现有技术,并且可以通过更有效的主动学习来降低众包成本。
Nov, 2018
本文研究了如何使用数据增强处理众包数据中的稀疏性问题,特别地,我们提出了使用生成对抗网络来直接学习分类器,以解决存在于众包数据中的标注不足问题。在三个现实世界数据集上进行的广泛实验和与当前最先进的众包学习方法的比较证明了我们的数据增强框架的有效性,展示了我们算法在低成本众包中的潜力。
Jul, 2021
本文提出了两种基于监督学习的主题模型,分别用于分类和回归,能够考虑到实践中在不同的标注者之间遇到的多样性和偏见。同时,我们还开发了一种有效的随机变分推断算法,能够适应非常大的数据集,并在实验中证明了该模型相对于现有技术的优越性。
Aug, 2018