带成本的平均情况主动学习
通过交互查询子集示例的标签,主动学习器在模型类和大量未标记示例的情况下学习适合数据的模型。本文提供了一个适用于极大似然估计的两阶段主动学习算法和标签需求的上限和下限分析,并表明这种方法在一些情况下可以实现近乎最优的性能。
Jun, 2015
研究活动学习的算法,其中标签器不仅可以返回不正确的标签,还可以放弃标记,利用放弃响应提出的算法在噪声和放弃率的自然假设下分析了其统计一致性和查询复杂度,并与下限相结合,证明在某些技术条件下,它实现了近乎最佳的查询复杂度 。
Oct, 2016
我们针对多分类成本敏感分类问题设计了主动学习算法:通过回归每个标签的成本并预测最小值来进行预测,它只查询可能最好的标签,忽略不可能的失败者,我们证明了 COAL 可以高效地实现任何支持平方损失优化的回归函数家族; 它还享有与预测性能和标签工作量相关的强大保证。我们在真实数据集上将 COAL 与被 动学习和几种主动学习基线进行了经验比较,证明在标签工作量和测试成本方面有显着的改进。
Mar, 2017
本研究采用贝叶斯方法研究了具有放弃反馈的基于池的主动学习问题,提出了两种新的贪心算法,同时学习分类问题和未知的放弃率,证明了这两种算法均具有近似最优保证,并在各种实际情况下进行了实验验证。
Jun, 2019
提出一种通过标签噪声的泛化界限选择信息量最大的标注者,以实现在较低成本下达到更高的泛化准确性;算法在五个UCI数据集和一个真实的众包数据集中展示了最新的性能。
May, 2021
该文针对主动覆盖问题,借助支持向量估计器等算法在无标签数据集上提出了在少量标签查询即可完成标记所有阳性样本的主动学习方法,并证明该方法在图像数据集等基准测试中取得了相对优于离线方法和基线算法的效果。
Jun, 2021
研究了一种高效的批量主动学习算法,该算法结合不确定性和多样性概念,在批量设置中易于扩展,并与先前研究中使用的批量大小(100K-1M)相比提高模型训练效率。同时,还证明了相关采样方法的标签复杂度保证,该方法在特定情况下几乎等同于我们的采样方法。
Jul, 2021
本文在 batch active learning 场景下,提出了一种解决 informativeness 和 diversity 之间权衡问题的算法,理论上可以在 pool-based active learning 中得到最优结果,并且这也是第一篇使用这种方式明确量化在 pool-based 场景中 batch active learning 统计表现的论文。
Feb, 2022
主要介绍了主动学习策略在解决二分类问题中的应用,提出了一种基于偏移正态分布采样函数的方法,通过限制噪声和正类标签选择,提高了20%到32%的成本效率。
Mar, 2024
我们研究了在主动学习过程中使用区域查询的复杂度与查询数量之间的权衡关系,并通过设计 VC 维度相关的查询方法来有效地学习。对于特定的假设类别,我们展示了更强的结果,包括计算效率和对未知数据集的适应性。
May, 2024