主动学习在最大似然估计中的收敛速率

Jun, 2015

主动学习在最大似然估计中的收敛速率

Convergence Rates of Active Learning for Maximum Likelihood Estimation

Kamalika Chaudhuri, Sham Kakade, Praneeth Netrapalli, Sujay Sanghavi

TL;DR通过交互查询子集示例的标签，主动学习器在模型类和大量未标记示例的情况下学习适合数据的模型。本文提供了一个适用于极大似然估计的两阶段主动学习算法和标签需求的上限和下限分析，并表明这种方法在一些情况下可以实现近乎最优的性能。

Abstract

An active learner is given a class of models, a large set of unlabeled examples, and the ability to interactively query labels of a subset of these examples; the goal of the learner is to learn a model in the class that fits the data well. Previous theoretical work has rigorously characterized →

active learning maximum likelihood estimation generalized linear models label complexity data fitting

发现论文，激发创造

主动学习中的收敛速度

该研究通过研究标签噪声下主动学习的泛化误差收敛速率等方面，探究了嵌套假设类的主动学习的模型选择问题，并提出了一种算法，该算法的错误率保证收敛于最优分类器的可达误差，并定义了实现这些速率显著快于被动学习的充分条件。

Mar, 2011

不可知的多组主动学习

本论文提出了一种用于多组学习的主动学习算法，以最小化标签查询数并保持 PAC 学习保证，其中包括分类准确度，标签查询和不一致系数等关键词。

Jun, 2023

主动模型选择

该论文研究了主动学习中困难的预测模型选择问题，并提出一种基于模型探针（model probes）的方法 Biased-Robin Algorithm，能够在相同成本和先验概率下有效地选择模型。

Jul, 2012

主动自适应的序列学习

提出了一种主动和自适应地解决一系列机器学习问题的框架，该框架通过使用一些未标记数据池中的最具信息量的样本，利用先前步骤中获得的信息，使用基于随机梯度下降的主动学习算法来实现近乎最优的风险性能，并构建了一个学习问题变化的估计器，通过使用主动学习样本提供一种自适应的样本大小选择规则，以保证足够的时间步数时超额风险是有界的。

May, 2018

基于不同意的不可知主动学习方法的拓展

本文提出一个算法，利用一种 “从一致的主动学习到具有保证错误的置信度评估预测” 的减少，以及一种新颖的置信度评估预测器解决了确保标签复杂度更低的主动学习问题。

Jul, 2014

关于损失和基于不确定性的主动学习算法的收敛性

我们研究了在各种假设下，损失和基于不确定性的主动学习算法的收敛速度。首先，我们给出了一组条件，用于线性分类器和线性可分数据集，以展示对基于损失采样和不同损失函数的收敛速度保证。其次，我们提供了一个框架，通过应用已知的随机梯度下降算法的收敛速度保证，来推导基于损失采样的收敛速度界限。最后，我们提出了一种主动学习算法，它结合了点采样和随机 Polyak 步长。我们展示了对平滑凸损失函数的此算法进行收敛速度保证的采样条件。我们的数值结果证明了我们提出的算法的效率。

Dec, 2023

主动覆盖

该文针对主动覆盖问题，借助支持向量估计器等算法在无标签数据集上提出了在少量标签查询即可完成标记所有阳性样本的主动学习方法，并证明该方法在图像数据集等基准测试中取得了相对优于离线方法和基线算法的效果。

Jun, 2021

正类和未标注数据中的主动学习

提出了一种能够在只有单类样本和无标签数据的情况下运作的主动学习算法，该方法通过分别估计正样本和未标记点的概率密度，计算信息性的期望值以获取更好的信息性度量。与其他类似方法相比，实验和经验分析结果表现出有前途的结果。

Feb, 2016

聚合输出的回归主动学习

提出使用互信息测量方法的主动学习模型，使用 Bayesian linear basis functions 模型，在训练聚合数据的回归模型时减少标注集的成本，并实现更好的预测性能。

Oct, 2022

贝叶斯批次主动学习作为稀疏子集逼近

本研究提出一种基于贝叶斯批量主动学习方法来解决大规模监督模型中标签获取成本高的问题，从而利用大量未标记数据来改善模型性能。此方法通过逼近模型参数的完整数据后验概率，并使用随机投影技术来推广到任意模型，从而使批处理的数据选择更加多样，有效降低了计算复杂度，并在多个大规模回归和分类任务上得到了证实。

Aug, 2019