理解不确定性抽样
基于节点分类的不确定性采样是主动学习策略,通过迭代地获取具有最高不确定性的数据点的标签,以提高机器学习模型的数据效率。本文首次对节点分类的不确定性采样进行了全面研究,我们超越了预测不确定性来评估不确定性采样,揭示了与其他主动学习策略之间的显著性能差距,并开发了基于数据生成过程的地面真实贝叶斯不确定性估计,证明了其在引导最佳查询中的有效性。在合成数据上验证了我们的结果,并设计了一种近似方法,不断优于其他真实数据集上的不确定性估计。基于此分析,我们将不确定性建模中的问题与现有方法联系起来,我们的分析有助于并引导了基于图的原则性不确定性估计的发展。
May, 2024
本文通过理论分析和实验证明了,基于凸损失上的不确定性采样算法可以被解释为在平滑版本的无约束损失函数上进行预处理的随机梯度下降步骤,且可以收敛到该函数的极小值点。
Dec, 2018
本文讨论了在 “不确定性采样” 策略的背景下,确立和不可归约不确定性的区别,提出了 “确立不确定性采样” 的概念,并使用一种具体的方法来衡量确立不确定性和偶发不确定性。实验表明,确立不确定性采样效果良好。
Aug, 2019
我们研究了在各种假设下,损失和基于不确定性的主动学习算法的收敛速度。首先,我们给出了一组条件,用于线性分类器和线性可分数据集,以展示对基于损失采样和不同损失函数的收敛速度保证。其次,我们提供了一个框架,通过应用已知的随机梯度下降算法的收敛速度保证,来推导基于损失采样的收敛速度界限。最后,我们提出了一种主动学习算法,它结合了点采样和随机 Polyak 步长。我们展示了对平滑凸损失函数的此算法进行收敛速度保证的采样条件。我们的数值结果证明了我们提出的算法的效率。
Dec, 2023
本研究提出了一种无标签学习的新方法,将区间估计引入了样本选择过程,以更好地探索未被充分选择的正确标注但看似贴错标签的较大损失数据和代表性差的数据,提高了误标噪声下的学习鲁棒性。
Jun, 2021
本研究探讨了基于提升树的主动学习方法对表格数据的有效性,利用模型不确定性进行样本选择,并针对回归任务提出了一种成本效益高的主动学习方法,同时也提出了改进的成本效益高的分类任务的主动学习方法。
Oct, 2023
本文探讨了在数据驱动主动学习框架下,针对医学图像分割任务进行不确定性校准的方法,研究了不同的不确定性估计方法和采集策略,并证明选定区域标注可以显著减少需要人工标注的像素数量。
Jul, 2020
探究主动学习在什么情况下有效,经验和理论都表明,主动学习的数据效率与最终分类器的错误率存在强烈的反比关系,理论上,对于不确定性采样的一种变体,渐进数据效率在极限分类器的倒数误差率的常数因子范围内。
Jun, 2018
通过使用主动学习方法,借助贝尔曲线采样的新标签,我们提出了一种改进了传统不确定性采样方法的训练模型的方式,该方法对于不同类型的数据集和具有不可预测响应区域的情况下效果良好。
Mar, 2024