流数据的主动成本感知标记

Apr, 2023

Active Cost-aware Labeling of Streaming Data

Ting Cai, Kirthevasan Kandasamy

TL;DR研究主动标注流数据的问题，提出了一种基于确定性阈值和时间成本依赖性阈值的算法，并考虑了数据输入属于离散或连续域的情况，得到了上限约束模型。通过模拟实验，并在医学和天文学领域进行实际测试，证明了该算法在实验结果上的优势。

Abstract

We study actively labeling streaming data, where an active learner is faced with a stream of data points and must carefully choose which of these points to label via an expensive experiment. Such problems frequently arise in applications such as healthcare and astronomy. We first study

active learning streaming data labeling cost prediction error rkhs

发现论文，激发创造

主动标注：流式随机梯度

介绍了一种使用部分监督的主动学习方法，在详细阐述机器学习中随机梯度下降和鲁棒回归的基础上，提供了流式技术以证明其最小一般化误差和采样数的比率。

May, 2022

具备性能保证的神经主动学习

研究了非参数制度下流式学习中的主动学习问题，使用最近提出的神经切向核近似工具构建适当的神经嵌入来确定算法操作的特征空间和计算在其上的学习模型。提出了一种对先前知识不可知的版本算法，并通过遗憾平衡方案解决了所得到的在线模型选择问题，该算法具有计算效率，提供了关于累积遗憾和请求标签数量的联合保证，这些保证取决于手头标记函数的复杂度。在线性情况下，这些保证恢复了关于标记复杂度的泛化误差的已知的极小值结果。

Jun, 2021

非平稳环境下基于数据流的具有验证延迟的主动学习

本文研究了有关时间变量和未知延迟验证对于主动学习问题的影响，提出了一种基于 PRopagate 和一个依据漂移情况的动态预算策略的解决方案。通过实验评估，发现该方法在不同的延迟时间和预算设置下优于现有技术。此外，还证明了在时间上变化预算分配可以提高主动学习策略的性能，而不增加总体标记预算。

Apr, 2022

主动覆盖

该文针对主动覆盖问题，借助支持向量估计器等算法在无标签数据集上提出了在少量标签查询即可完成标记所有阳性样本的主动学习方法，并证明该方法在图像数据集等基准测试中取得了相对优于离线方法和基线算法的效果。

Jun, 2021

审计：具有基于结果的查询成本的主动学习

本研究提出了一种有关二元分类的学习设置，其中未标记的数据是免费的，标签的成本因其价值而异，不可预先知道。该文将此设置称为审计，并研究了算法的审计复杂度。通过设计审计算法，我们发现审计复杂度可以显著低于主动标记复杂度，并探讨了一个总体竞争方法用于审计和框架的可能修改。

Jun, 2013

在线主动回归

通过在线化算法实现积极回归问题的解决，利用较少的标签查询，实现收到的数据点的回归，提出新的算法解决问题。

Jul, 2022

基于池的批次主动学习中的快速速率

本文在 batch active learning 场景下，提出了一种解决 informativeness 和 diversity 之间权衡问题的算法，理论上可以在 pool-based active learning 中得到最优结果，并且这也是第一篇使用这种方式明确量化在 pool-based 场景中 batch active learning 统计表现的论文。

Feb, 2022

提高嘈杂数据集上主动学习的成本效益

主要介绍了主动学习策略在解决二分类问题中的应用，提出了一种基于偏移正态分布采样函数的方法，通过限制噪声和正类标签选择，提高了 20% 到 32% 的成本效率。

Mar, 2024

带成本的平均情况主动学习

对一种贪心主动学习算法的期望成本进行了分析，如使用标签成本的活跃学习，适用于多类和部分标签查询的活跃学习，以及批处理模式的活跃学习。

May, 2009

非参数主动学习用于成本敏感分类

设计了一种用于成本敏感分类的通用非参数主动学习算法，通过构建每个标签的预测成本函数的置信区间，该算法选择最具信息量的向量点，通过仅查询可能是最小的预测成本来与其交互，证明了该算法在与向量空间的交互数量方面达到了最优收敛速率，并且在对 Tsybakov 的噪声假设的一般版本中，通过边界决策的概率质量明确表征了相对于相应被动学习方法的收益，并且通过提供匹配的（仅差对数因子的）下界证明了获得上界的接近最优性。

Sep, 2023