该研究探讨了基于流式学习和基于池式学习的不确定性采样算法,提出了等价损失和损失作为不确定性的概念,建立了不确定性采样算法的泛化界限,并将其与风险敏感目标和分布鲁棒性联系起来,解释了不确定性采样算法在样本规模较小时的优势。
Jul, 2023
我们研究了在各种假设下,损失和基于不确定性的主动学习算法的收敛速度。首先,我们给出了一组条件,用于线性分类器和线性可分数据集,以展示对基于损失采样和不同损失函数的收敛速度保证。其次,我们提供了一个框架,通过应用已知的随机梯度下降算法的收敛速度保证,来推导基于损失采样的收敛速度界限。最后,我们提出了一种主动学习算法,它结合了点采样和随机 Polyak 步长。我们展示了对平滑凸损失函数的此算法进行收敛速度保证的采样条件。我们的数值结果证明了我们提出的算法的效率。
Dec, 2023
基于节点分类的不确定性采样是主动学习策略,通过迭代地获取具有最高不确定性的数据点的标签,以提高机器学习模型的数据效率。本文首次对节点分类的不确定性采样进行了全面研究,我们超越了预测不确定性来评估不确定性采样,揭示了与其他主动学习策略之间的显著性能差距,并开发了基于数据生成过程的地面真实贝叶斯不确定性估计,证明了其在引导最佳查询中的有效性。在合成数据上验证了我们的结果,并设计了一种近似方法,不断优于其他真实数据集上的不确定性估计。基于此分析,我们将不确定性建模中的问题与现有方法联系起来,我们的分析有助于并引导了基于图的原则性不确定性估计的发展。
May, 2024
本研究提出了一种无标签学习的新方法,将区间估计引入了样本选择过程,以更好地探索未被充分选择的正确标注但看似贴错标签的较大损失数据和代表性差的数据,提高了误标噪声下的学习鲁棒性。
Jun, 2021
通过采用分别基于重采样的多个随机梯度下降和在线方法,我们实现了对于随机梯度下降解的置信区间的构建,通过最近被称为廉价引导思想和 SGD 的 Berry-Esseen 型界限,我们显著减少了计算量,并绕过了现有分批方法中复杂的混合条件。
Oct, 2023
研究了 SGD 算法在高维参数空间下最简单在线版本的性能,通过对样本数量的阈值来确定参数估计的一致性,其阈值是多项式维度的,取决于信息指数。
Mar, 2020
在机器学习应用中,我们提出了一种风险规避的训练模型的方法,它通过优化在最难的样本上的表现来提高模型的稳定性和可预测性,关键是利用分布式随机优化算法和结构化行列式点过程进行大规模的学习任务。
Oct, 2019
探究主动学习在什么情况下有效,经验和理论都表明,主动学习的数据效率与最终分类器的错误率存在强烈的反比关系,理论上,对于不确定性采样的一种变体,渐进数据效率在极限分类器的倒数误差率的常数因子范围内。
Jun, 2018
本文讨论了在 “不确定性采样” 策略的背景下,确立和不可归约不确定性的区别,提出了 “确立不确定性采样” 的概念,并使用一种具体的方法来衡量确立不确定性和偶发不确定性。实验表明,确立不确定性采样效果良好。
Aug, 2019
本文研究了使用重要性抽样的随机优化算法,特别是使用重要性抽样的 Prox-SGD 和 Prox-SDCA,并提供广泛的理论分析和实验证明,使用所提出的重要性抽样方法可以显着提高收敛速度。
Jan, 2014