针对二元分类的基于池的主动学习的重新基准测试
主要介绍了主动学习策略在解决二分类问题中的应用,提出了一种基于偏移正态分布采样函数的方法,通过限制噪声和正类标签选择,提高了 20% 到 32% 的成本效率。
Mar, 2024
在仅有限标记数据可用的情况下,主动学习通过设计查询策略来选择信息量最大的数据点进行标记,旨在提高学习算法的效率和性能。然而,目前缺乏对不同查询策略性能进行比较的标准化基准,特别是在将不同学习算法与主动学习流程相结合并考察学习算法选择的影响方面。为了弥补这一空白,我们提出了 ALPBench,用于支持主动学习流程的规范、执行和性能监控。它内置了可确保可重复评估的措施,保存了使用算法的精确数据集拆分和超参数设置。总共,ALPBench 包含 86 个真实的表格分类数据集和 5 个主动学习设置,产生 430 个主动学习问题。为了证明其对各种学习算法和查询策略的有用性和广泛兼容性,我们进行了一项示例研究,评估了 9 种查询策略与 8 种学习算法在两种不同设置下的表现。我们在此提供 ALPBench:[URL]
Jun, 2024
本研究旨在证明在相同实验条件下,不同类型的主动学习算法(基于不确定性、多样性和委员会的),与随机采样基准相比,产生的收益不一致,这种性能度量的差异性可能导致结果与以前报告的结果不一致,强正则化下,主动学习方法在各种实验条件下显示出微小或无优势,并提出一套关于如何评估主动学习算法的建议,以确保结果在实验条件变化下具有重复性和稳健性。
Feb, 2020
本文研究了如何在不可靠的情况下评估主动学习算法在训练期间的性能,并提出了三个主要挑战:如何推导性能分布,如何保留标记子集的代表性,以及如何纠正由于智能选择策略而引起的抽样偏差。
Jan, 2019
本研究分析了当前主要的主动式学习技术中存在的主要缺点,并提出了缓解这些缺点的方法,包括使用部分不确定性采样和更大的查询大小加速主动式学习循环,并展示了开源贝叶斯主动式学习库 BaaL。
Jun, 2020
本文介绍了最常用的分类器之一 - 逻辑回归的主要应用和性能,比较了不同的主动学习方法在准确性和计算成本方面的表现,并且发现最简单和最早期的主动学习方法 - 不确定性采样,表现优越。
Nov, 2016
提供了一种公平比较不同任务和领域中算法的主动学习框架,并提出了一种快速有效的评估算法。汇总了在 3 个主要领域(表格、图像和文本)上使用的 6 种广泛应用的算法在 7 个实际数据集和 2 个合成数据集上的实证结果,并形成了领域特定的主动学习算法排名。
Nov, 2023
通过全面评估当前最先进的深度主动学习方法,我们的研究发现在一般情况下没有单一模型的方法能显著超越基于熵的主动学习方法,甚至一些方法还不如随机抽样。我们深入研究了常常被忽视的方面,如初始预算、预算递增步长和预训练的影响,并揭示了它们在实现卓越结果上的重要性。此外,我们还将评估拓展到其他任务,探索了将主动学习与半监督学习和目标检测相结合的有效性。我们的实验提供了有价值的见解和具体建议,为未来的主动学习研究做出了贡献。通过揭示当前方法的局限性,并理解不同实验设置的影响,我们旨在启发在有限注释预算的现实场景下更高效地训练深度学习模型。这项工作有助于提高主动学习在深度学习中的效果,并使研究人员在应用主动学习时能做出明智的决策。
Mar, 2024