流数据的主动成本感知标记
研究了非参数制度下流式学习中的主动学习问题,使用最近提出的神经切向核近似工具构建适当的神经嵌入来确定算法操作的特征空间和计算在其上的学习模型。提出了一种对先前知识不可知的版本算法,并通过遗憾平衡方案解决了所得到的在线模型选择问题,该算法具有计算效率,提供了关于累积遗憾和请求标签数量的联合保证,这些保证取决于手头标记函数的复杂度。在线性情况下,这些保证恢复了关于标记复杂度的泛化误差的已知的极小值结果。
Jun, 2021
本文研究了有关时间变量和未知延迟验证对于主动学习问题的影响,提出了一种基于 PRopagate 和一个依据漂移情况的动态预算策略的解决方案。通过实验评估,发现该方法在不同的延迟时间和预算设置下优于现有技术。此外,还证明了在时间上变化预算分配可以提高主动学习策略的性能,而不增加总体标记预算。
Apr, 2022
该文针对主动覆盖问题,借助支持向量估计器等算法在无标签数据集上提出了在少量标签查询即可完成标记所有阳性样本的主动学习方法,并证明该方法在图像数据集等基准测试中取得了相对优于离线方法和基线算法的效果。
Jun, 2021
本研究提出了一种有关二元分类的学习设置,其中未标记的数据是免费的,标签的成本因其价值而异,不可预先知道。该文将此设置称为审计,并研究了算法的审计复杂度。通过设计审计算法,我们发现审计复杂度可以显著低于主动标记复杂度,并探讨了一个总体竞争方法用于审计和框架的可能修改。
Jun, 2013
本文在 batch active learning 场景下,提出了一种解决 informativeness 和 diversity 之间权衡问题的算法,理论上可以在 pool-based active learning 中得到最优结果,并且这也是第一篇使用这种方式明确量化在 pool-based 场景中 batch active learning 统计表现的论文。
Feb, 2022
主要介绍了主动学习策略在解决二分类问题中的应用,提出了一种基于偏移正态分布采样函数的方法,通过限制噪声和正类标签选择,提高了 20% 到 32% 的成本效率。
Mar, 2024
设计了一种用于成本敏感分类的通用非参数主动学习算法,通过构建每个标签的预测成本函数的置信区间,该算法选择最具信息量的向量点,通过仅查询可能是最小的预测成本来与其交互,证明了该算法在与向量空间的交互数量方面达到了最优收敛速率,并且在对 Tsybakov 的噪声假设的一般版本中,通过边界决策的概率质量明确表征了相对于相应被动学习方法的收益,并且通过提供匹配的(仅差对数因子的)下界证明了获得上界的接近最优性。
Sep, 2023