贝叶斯非参数众包

Jul, 2014

Bayesian Nonparametric Crowdsourcing

Pablo G. Moreno, Yee Whye Teh, Fernando Perez-Cruz, Antonio Artés-Rodríguez

TL;DR本研究旨在提出两种基于中华餐厅过程 (CRP) 先验概率和分层结构的全新无监督模型，以更好地处理众包数据标注中用户注释的质量问题，并利用 Gibbs 采样的高效推理算法对其进行实验验证。

Abstract

crowdsourcing has been proven to be an effective and efficient tool to annotate large datasets. User annotations are often noisy, so methods to combine the →

crowdsourcing annotations ground truth unsupervised models gibbs sampling

发现论文，激发创造

大规模真相推断：Bayesian 模型用于裁决高度冗余的众包注释

本文提出了一种基于贝叶斯图形模型的技术，用于有效地处理高度冗余注释数据，相比于多数真实推断模型，我们的方法得出了更优质的结果。

Feb, 2019

带有约束条件的贝叶斯众包

本文探讨半监督众包分类在标签约束和实例约束两种情况下的贝叶斯算法，该算法基于变分推断，可以比无监督众包分类更有效地对人工注释信息进行聚合，该算法在多个众包数据集上的分析和实证验证了其表现的可量化提升。

Dec, 2020

高效在线众包任务与复杂注释

在线众包平台的真实性发现算法在聚合多个标注人的注释时起着重要作用，本论文提出了一种适用于在线众包环境的新方法，能够在有效平衡成本（即标注数量）和注释质量的同时，对一般复杂注释（如边界框和分类路径）进行推断，该方法以 label 者的准确度为线性期望平均相似度，经过对 Meta 真实众包数据的广泛评估后，展示了我们提出的在线算法在改善成本 - 质量权衡方面的有效性。

Jan, 2024

基于深度生成模型的半众包聚类

本论文考虑基于有噪声的数据子集对聚类问题进行半监督学习，提出一种新的深度生成模型和统计关系模型相结合的方法，并采用贝叶斯推断策略，采用快速（自然梯度）随机变分推断算法进行推断，实验结果显示该方法优于以往的基于众包的聚类方法。

Oct, 2018

众包中注释者组偏见探究

这篇研究论文介绍了一种新的基于概率图形框架的群体偏差建模方法，以及用于捕捉同一人群内标注员偏倚影响标注结果的训练算法，该方法在实验证明了其在标签汇聚和模型学习方面的有效性。

Oct, 2021

半监督文本注释的贝叶斯方法

通过贝叶斯深度学习模型和贝叶斯集成方法来指导注释过程，可以提高 BERT 模型的注释和预测性能。

Oct, 2020

一种基于贝叶斯方法的众包序列标注技术

本研究提出了一种用于聚合序列标记的贝叶斯方法，该方法通过对注释者的误差和模拟注释的困难度进行建模，有效地减少了常见的跨度注释错误。通过在命名实体识别，信息抽取和论证挖掘方面进行 crowdsourced 数据的评估，表明我们的序列模型优于以前的现有技术，并且可以通过更有效的主动学习来降低众包成本。

Nov, 2018

嵌套中餐馆过程与贝叶斯非参数主题层次推断

本文提出了嵌套的中餐馆过程 (nCRP)，它将概率分布分配给无限深度、无限分支的树。将该随机过程用作文献集合的贝叶斯非参数模型的先验分布，并演示了其在信息检索中的应用，其中文档被建模为沿随机树的路径，nCRP 的优先附着动力学根据多个抽象级别上的主题共享将文档聚类。给定一组文档，后验推断算法找到一个关于树、主题和单词分配到树的级别的后验分布的近似值，本文在几个期刊的科学文摘集合上演示了此算法。

Oct, 2007

基于群众标注的多视角知识蒸馏用于领域外泛化

本文提出了新的方法以通过温度调节和 Jensen-Shannon 中心法从众包注释中汇总多个视角的分布，从而获得软标签。我们展示了这些聚合方法在四项自然语言处理任务中表现出最佳或接近最佳的性能，同时还验证了这些方法在任务不确定性估计上表现最佳。

Dec, 2022

众包深度学习

本文提出了一种基于 EM 算法和众包技术的神经网络训练模型，能够直接从多个标注者的嘈杂标签数据中进行有监督学习，并能够捕捉不同标注者的可靠性和偏见，最终在多个领域获得了新的最优结果。

Sep, 2017