通过相关杠杆得分抽样改进主动学习

Oct, 2023

通过相关杠杆得分抽样改进主动学习

Improved Active Learning via Dependent Leverage Score Sampling

Atsushi Shimizu, Xiaoou Cheng, Christopher Musco, Jonathan Weare

TL;DR我们展示了如何通过将边际杠杆得分抽样与促进空间覆盖的非独立抽样策略相结合，从而在不知情（对抗性噪声）设置中获得改进的主动学习方法。我们提出了一个简单实现的基于关键抽样算法的方法，并在基于学习的参数化 PDEs 和不确定性量化的问题上进行了测试。与独立抽样相比，我们的方法将达到给定目标精度所需的样本数量减少了最多 50％。我们用两个理论结果支持了我们的发现。首先，我们证明了任何满足弱单向的离散 l∞独立条件（其中包括关键抽样）的非独立杠杆得分抽样方法可以以 O (dlogd) 的样本主动学习 d 维线性函数，与独立抽样相匹配。这个结果扩展了最近关于 l∞独立性下矩阵 Chernoff 界的工作，并可能对分析关键抽样之外的其他抽样策略感兴趣。其次，我们证明了对于多项式回归的重要案例，我们的关键方法获得了 O (d) 的改进界。

Abstract

We show how to obtain improved active learning methods in the agnostic (adversarial noise) setting by combining marginal leverage score sampling<

active learning adversarial noise marginal leverage score sampling spatial coverage pdes

发现论文，激发创造

神经网络的广义杠杆秩采样

本文探讨了权重得分采样技术在核方法和深度学习理论中的应用，证明了神经网络的初始化与用随机特征逼近神经切向核之间的关系，以及通过使用常规的随机高斯权重或权重得分采样初始化，正则化神经网络和神经切向核岭回归之间的等效性。

Sep, 2020

ALEVS: 统计杠杆采样的主动学习

本文研究了基于统计杠杆得分的新型查询标准对主动学习的影响，通过在多个二元分类数据集上的实证比较，表明查询高杠杆点是一种有效的策略。

Jul, 2015

快速杠杆分数抽样和最优学习

本文提出了一种基于核的正定矩阵的杠杆得分采样算法，并利用该方法派生了核岭回归的新解算器，我们的主要技术贡献在于表明所提出的算法目前对于这些问题是最有效和精确的。

Oct, 2018

线性样本复杂度下的单指数模型无偏主动学习

对单指数模型进行主动学习方法的研究，证明了在已知或未知函数情况下，通过统计杠杆得分采样，采集约 O (d) 个样本即可学习出接近最优的单指数模型，且适用于拟合偏微分方程等科学机器学习应用。这种方法无需对数据分布进行假设，在挑战性的对手学习环境中表现出鲁棒性。

May, 2024

可证明的确定性杠杆得分采样

本研究发现借助确定性列采样算法可以优化矩阵逼近的效果，但要求杠杆得分具有适度陡峭的幂律衰减特性。我们提供了实证证据支持这一假设，并通过实际测试表明，该算法的性能已达到或超过了现有技术水平。

Apr, 2014

基于杠杆的低秩张量分解实用采样

本文研究稀疏张量的低秩正交多项式分解，提出了使用杠杆得分来选择子集行数的草图方法，并提供了一个实际的解决方案，以提高高杠杆得分行的采样和理论界限。

Jun, 2020

算法协同作用的统计视角

本文在大数据集上提出了算法杠杆效应的采样方法，通过样本采集分布来提高算法的计算效率，并在固定预测因子的线性回归模型中，提出了一种简单有效的框架来评估算法杠杆的统计性能。其结果表明核心的采样方法的统计性能既不会因为采用杠杆采样而主导也不会因采用均匀采样而优于杠杆采样，但其在最坏分析情况下，杠杆采样与均匀采样相比都能提供更好的结果。在理论性能基础上，本文提出并分析了两种新的杠杆算法，并在合成和真实数据集上进行了详细的实证评估。

Jun, 2013

从经验杠杆得分中采样随机特征：实现和理论保证

本文通过实证杠杆得分的方式，研究在随机特征的领域中，在核逼近和数据分布之间的权衡，提出一种算法可以有效地减少所需的特征数量，且不需要使用输出信息。实验结果表明，与普通的蒙特卡罗采样相比，该算法始终表现出优势，并且在进行了轻微的修改后，该算法在没有使用输出（标签）信息的情况下与监督的数据相关核学习方法相当竞争力。

Mar, 2019

通过高效的非参数替代品实现深度学习的自适应采样

通过使用非参数核回归进行采样，我们提出了一种新颖的采样分布，它能够在神经网络训练过程中学习到有效的重要性评分。我们的采样算法在墙钟时间和准确性上优于基准算法。

Nov, 2023

具有统计保证的快速随机核方法

本文章介绍了一种改进基于核方法的机器学习方法运行时间的方法，并提出了一个计算算法，该算法可以用来在不需要生成全核矩阵的情况下，对特征向量矩阵进行采样，并在统计表现和运行时间方面提供了新的保证。

Nov, 2014