从众策中高效的 PAC 学习

Mar, 2017

Efficient PAC Learning from the Crowd

Pranjal Awasthi, Avrim Blum, Nika Haghtalab, Yishay Mansour

TL;DR通过交错标注和学习的过程，可以在更少的标注成本下实现计算效率，以高精度去标记收集的数据，从而进行有效的学习算法。

Abstract

In recent years crowdsourcing has become the method of choice for gathering labeled training data for learning algorithms. Standard approaches to

crowdsourcing labeled data learning algorithms computational efficiency labeling

发现论文，激发创造

使用成对比较从群众中高效学习 PAC

本文基于两种算法（一个可直接恢复出真实标签，另一个则可以在标注标签子集的情况下可靠地推断出大型实例集的真实标签）从而开发利用配对比较查询可在指数级减少标签复杂性的方法，用于众包 PAC 学习阈值函数的设定，并在保留整体查询复杂性和运行时间的同时，可以成功地处理来自可能反对者的注释。

Nov, 2020

从含有噪声的带有单标签数据中学习

提出一种新的算法来联合建模标签和工作者质量，从带有噪声的众包数据中学习，可优化有限的标注资源，解决如何从噪声工作者中学习以及如何分配标注预算来最大化分类器性能等问题。

Dec, 2017

众包深度学习

本文提出了一种基于 EM 算法和众包技术的神经网络训练模型，能够直接从多个标注者的嘈杂标签数据中进行有监督学习，并能够捕捉不同标注者的可靠性和偏见，最终在多个领域获得了新的最优结果。

Sep, 2017

不同标签函数的协同学习

研究一种协作 PAC 学习的变体，旨在学习每个数据分布的准确分类器，同时最小化从这些数据分布中所抽取的样本数总量。给出基于经验风险最小化算法的学习方法，并且分析依赖于增强的假设类的 VC 维度的上界。在计算效率方面，证明了在一般情况下，基于增强的假设类的 ERM 是 NP 难的，为不存在计算效率高的学习器提供了依据，但对于两种特殊情况，给出了既有样本效率又有计算效率的学习器。

Feb, 2024

众包分类任务工人分配的主动学习效率

本文针对众包分类任务中工人分配问题，结合理论分析和实验模拟，比较了两种主动学习策略和均匀分配策略的性能，并推导了一个新的性能边界。实验结果表明理论结果在实践中得到了验证。

Oct, 2016

近似最优的众包分类教学

研究如何通过随机模型和基于子模块的贪婪算法来选择训练示例以教导学习者分类规则，并证明该策略具有较高的实用性和有效性。

Feb, 2014

对抗性多源 PAC 学习的样本复杂度

探讨来自多个不可信数据源的学习问题，提出了一种解决方法，该方法可以在合作学习模式下有效应对某些数据源的有偏差性和攻击性干扰，并能够提供有限样本保证。

Feb, 2020

协作 PAC 学习的改进算法

研究了一种近期的协作 PAC 学习模型，在这个模型下，k 个执行 k 个不同任务的参与者协作学习单个工作于所有任务的分类器。该研究设计了新算法，其中的样本复杂度仅为学习单个任务的最坏情况样本复杂度的 O (ln (k)) 倍，样本复杂度的上界与之前的算法匹配，并且在某些参数范围内甚至比允许输出不同分类器以适用于不同任务的先前算法更好。

May, 2018

带有约束条件的贝叶斯众包

本文探讨半监督众包分类在标签约束和实例约束两种情况下的贝叶斯算法，该算法基于变分推断，可以比无监督众包分类更有效地对人工注释信息进行聚合，该算法在多个众包数据集上的分析和实证验证了其表现的可量化提升。

Dec, 2020

众包中的批准投票和激励

本文介绍了一种利用批准投票和合适的激励机制来提高众包数据标注质量的方法，并通过理论与实证的研究验证了该方法的优越性。

Feb, 2015