带有约束条件的贝叶斯众包

KDDDec, 2020

Bayesian Crowdsourcing with Constraints

Panagiotis A. Traganitis, Georgios B. Giannakis

TL;DR本文探讨半监督众包分类在标签约束和实例约束两种情况下的贝叶斯算法，该算法基于变分推断，可以比无监督众包分类更有效地对人工注释信息进行聚合，该算法在多个众包数据集上的分析和实证验证了其表现的可量化提升。

Abstract

crowdsourcing has emerged as a powerful paradigm for efficiently labeling large datasets and performing various learning tasks, by leveraging crowds of human annotators. When additional information is available about the data, semi-supervised →

crowdsourcing semi-supervised learning variational inference human annotation classification

发现论文，激发创造

大规模真相推断：Bayesian 模型用于裁决高度冗余的众包注释

本文提出了一种基于贝叶斯图形模型的技术，用于有效地处理高度冗余注释数据，相比于多数真实推断模型，我们的方法得出了更优质的结果。

Feb, 2019

众包的监督集体分类

本论文提出一种有监督的集成分类算法，旨在确定训练数据（例如，具有已知标签的项目）中可靠的标注者（即加权因子），使用马鞍点算法来确定每个标注者的可靠性，研究结果表明，有监督的方法可以比无监督的方法获得更好的分类准确性，而我们提出的方法优于其他算法。

Jul, 2015

贝叶斯非参数众包

本研究旨在提出两种基于中华餐厅过程 (CRP) 先验概率和分层结构的全新无监督模型，以更好地处理众包数据标注中用户注释的质量问题，并利用 Gibbs 采样的高效推理算法对其进行实验验证。

Jul, 2014

在线众包注释中不充分和模糊监督问题缓解方向

通过众包标注系统和基于伪标签和对比学习的新方法，解决了由于用户知识、文化背景差异和获得监督信息的高成本而导致的标注信息不充分和含糊不清的问题，实现了半监督部分标签学习的最先进表现。

Oct, 2022

半监督文本注释的贝叶斯方法

通过贝叶斯深度学习模型和贝叶斯集成方法来指导注释过程，可以提高 BERT 模型的注释和预测性能。

Oct, 2020

众包深度学习

本文提出了一种基于 EM 算法和众包技术的神经网络训练模型，能够直接从多个标注者的嘈杂标签数据中进行有监督学习，并能够捕捉不同标注者的可靠性和偏见，最终在多个领域获得了新的最优结果。

Sep, 2017

从含有噪声的带有单标签数据中学习

提出一种新的算法来联合建模标签和工作者质量，从带有噪声的众包数据中学习，可优化有限的标注资源，解决如何从噪声工作者中学习以及如何分配标注预算来最大化分类器性能等问题。

Dec, 2017

一种基于贝叶斯方法的众包序列标注技术

本研究提出了一种用于聚合序列标记的贝叶斯方法，该方法通过对注释者的误差和模拟注释的困难度进行建模，有效地减少了常见的跨度注释错误。通过在命名实体识别，信息抽取和论证挖掘方面进行 crowdsourced 数据的评估，表明我们的序列模型优于以前的现有技术，并且可以通过更有效的主动学习来降低众包成本。

Nov, 2018

通过生成增强改进众包学习

本文研究了如何使用数据增强处理众包数据中的稀疏性问题，特别地，我们提出了使用生成对抗网络来直接学习分类器，以解决存在于众包数据中的标注不足问题。在三个现实世界数据集上进行的广泛实验和与当前最先进的众包学习方法的比较证明了我们的数据增强框架的有效性，展示了我们算法在低成本众包中的潜力。

Jul, 2021

基于众包的监督主题模型用于分类与回归学习

本文提出了两种基于监督学习的主题模型，分别用于分类和回归，能够考虑到实践中在不同的标注者之间遇到的多样性和偏见。同时，我们还开发了一种有效的随机变分推断算法，能够适应非常大的数据集，并在实验中证明了该模型相对于现有技术的优越性。

Aug, 2018