从众策中高效的 PAC 学习
本文基于两种算法(一个可直接恢复出真实标签,另一个则可以在标注标签子集的情况下可靠地推断出大型实例集的真实标签)从而开发利用配对比较查询可在指数级减少标签复杂性的方法,用于众包 PAC 学习阈值函数的设定,并在保留整体查询复杂性和运行时间的同时,可以成功地处理来自可能反对者的注释。
Nov, 2020
提出一种新的算法来联合建模标签和工作者质量,从带有噪声的众包数据中学习,可优化有限的标注资源,解决如何从噪声工作者中学习以及如何分配标注预算来最大化分类器性能等问题。
Dec, 2017
本文提出了一种基于 EM 算法和众包技术的神经网络训练模型,能够直接从多个标注者的嘈杂标签数据中进行有监督学习,并能够捕捉不同标注者的可靠性和偏见,最终在多个领域获得了新的最优结果。
Sep, 2017
研究一种协作 PAC 学习的变体,旨在学习每个数据分布的准确分类器,同时最小化从这些数据分布中所抽取的样本数总量。给出基于经验风险最小化算法的学习方法,并且分析依赖于增强的假设类的 VC 维度的上界。在计算效率方面,证明了在一般情况下,基于增强的假设类的 ERM 是 NP 难的,为不存在计算效率高的学习器提供了依据,但对于两种特殊情况,给出了既有样本效率又有计算效率的学习器。
Feb, 2024
本文针对众包分类任务中工人分配问题,结合理论分析和实验模拟,比较了两种主动学习策略和均匀分配策略的性能,并推导了一个新的性能边界。实验结果表明理论结果在实践中得到了验证。
Oct, 2016
探讨来自多个不可信数据源的学习问题,提出了一种解决方法,该方法可以在合作学习模式下有效应对某些数据源的有偏差性和攻击性干扰,并能够提供有限样本保证。
Feb, 2020
研究了一种近期的协作 PAC 学习模型,在这个模型下,k 个执行 k 个不同任务的参与者协作学习单个工作于所有任务的分类器。该研究设计了新算法,其中的样本复杂度仅为学习单个任务的最坏情况样本复杂度的 O (ln (k)) 倍,样本复杂度的上界与之前的算法匹配,并且在某些参数范围内甚至比允许输出不同分类器以适用于不同任务的先前算法更好。
May, 2018
本文探讨半监督众包分类在标签约束和实例约束两种情况下的贝叶斯算法,该算法基于变分推断,可以比无监督众包分类更有效地对人工注释信息进行聚合,该算法在多个众包数据集上的分析和实证验证了其表现的可量化提升。
Dec, 2020