ALEVS: 统计杠杆采样的主动学习

ICMLJul, 2015

ALEVS: Active Learning by Statistical Leverage Sampling

Cem Orhan, Öznur Taştan

TL;DR本文研究了基于统计杠杆得分的新型查询标准对主动学习的影响，通过在多个二元分类数据集上的实证比较，表明查询高杠杆点是一种有效的策略。

Abstract

active learning aims to obtain a classifier of high accuracy by using fewer label requests in comparison to passive learning by selecting effective queries. Many active learning methods have been developed in the

active learning querying criteria statistical leverage scores binary classification empirical comparison

发现论文，激发创造

算法协同作用的统计视角

本文在大数据集上提出了算法杠杆效应的采样方法，通过样本采集分布来提高算法的计算效率，并在固定预测因子的线性回归模型中，提出了一种简单有效的框架来评估算法杠杆的统计性能。其结果表明核心的采样方法的统计性能既不会因为采用杠杆采样而主导也不会因采用均匀采样而优于杠杆采样，但其在最坏分析情况下，杠杆采样与均匀采样相比都能提供更好的结果。在理论性能基础上，本文提出并分析了两种新的杠杆算法，并在合成和真实数据集上进行了详细的实证评估。

Jun, 2013

快速杠杆分数抽样和最优学习

本文提出了一种基于核的正定矩阵的杠杆得分采样算法，并利用该方法派生了核岭回归的新解算器，我们的主要技术贡献在于表明所提出的算法目前对于这些问题是最有效和精确的。

Oct, 2018

通过相关杠杆得分抽样改进主动学习

我们展示了如何通过将边际杠杆得分抽样与促进空间覆盖的非独立抽样策略相结合，从而在不知情（对抗性噪声）设置中获得改进的主动学习方法。我们提出了一个简单实现的基于关键抽样算法的方法，并在基于学习的参数化 PDEs 和不确定性量化的问题上进行了测试。与独立抽样相比，我们的方法将达到给定目标精度所需的样本数量减少了最多 50％。我们用两个理论结果支持了我们的发现。首先，我们证明了任何满足弱单向的离散 l∞独立条件（其中包括关键抽样）的非独立杠杆得分抽样方法可以以 O (dlogd) 的样本主动学习 d 维线性函数，与独立抽样相匹配。这个结果扩展了最近关于 l∞独立性下矩阵 Chernoff 界的工作，并可能对分析关键抽样之外的其他抽样策略感兴趣。其次，我们证明了对于多项式回归的重要案例，我们的关键方法获得了 O (d) 的改进界。

Oct, 2023

神经网络的广义杠杆秩采样

本文探讨了权重得分采样技术在核方法和深度学习理论中的应用，证明了神经网络的初始化与用随机特征逼近神经切向核之间的关系，以及通过使用常规的随机高斯权重或权重得分采样初始化，正则化神经网络和神经切向核岭回归之间的等效性。

Sep, 2020

计算高效的主动学习

通过简单而有效的方法不仅可以降低主动学习过程的计算成本，还能保持模型性能，从而优化大规模数据集的标注效率。

Jan, 2024

提高嘈杂数据集上主动学习的成本效益

主要介绍了主动学习策略在解决二分类问题中的应用，提出了一种基于偏移正态分布采样函数的方法，通过限制噪声和正类标签选择，提高了 20% 到 32% 的成本效率。

Mar, 2024

在主动学习中减轻采样偏差并提高鲁棒性

该论文提出了简单而高效的方法来减轻主动学习中的采样偏差，同时实现最先进的精度和模型鲁棒性。通过引入有监督对比主动学习和选择具有多样的特性表示的信息性数据样本的无偏查询策略，我们的方法：SCAL 和 DFM，实验表明，所提出的方法降低了采样偏差，在主动学习设置中，查询计算速度比基于贝叶斯的对抗式学习快 26 倍，比 CoreSet 快 11 倍。所提出的 SCAL 方法在对抗性数据集转移和预测真实分布方面具有显着的优势。

Sep, 2021

正类和未标注数据中的主动学习

提出了一种能够在只有单类样本和无标签数据的情况下运作的主动学习算法，该方法通过分别估计正样本和未标记点的概率密度，计算信息性的期望值以获取更好的信息性度量。与其他类似方法相比，实验和经验分析结果表现出有前途的结果。

Feb, 2016

可证明的确定性杠杆得分采样

本研究发现借助确定性列采样算法可以优化矩阵逼近的效果，但要求杠杆得分具有适度陡峭的幂律衰减特性。我们提供了实证证据支持这一假设，并通过实际测试表明，该算法的性能已达到或超过了现有技术水平。

Apr, 2014

主动自适应的序列学习

提出了一种主动和自适应地解决一系列机器学习问题的框架，该框架通过使用一些未标记数据池中的最具信息量的样本，利用先前步骤中获得的信息，使用基于随机梯度下降的主动学习算法来实现近乎最优的风险性能，并构建了一个学习问题变化的估计器，通过使用主动学习样本提供一种自适应的样本大小选择规则，以保证足够的时间步数时超额风险是有界的。

May, 2018