利润是否就足够了?基于表格数据的主动学习的广泛经验研究
提供了一种公平比较不同任务和领域中算法的主动学习框架,并提出了一种快速有效的评估算法。汇总了在 3 个主要领域(表格、图像和文本)上使用的 6 种广泛应用的算法在 7 个实际数据集和 2 个合成数据集上的实证结果,并形成了领域特定的主动学习算法排名。
Nov, 2023
通过模拟现有标记的数据集作为未标记的数据池,探索了主动学习算法的评估与验证过程中存在的挑战及被忽略的因素对研究结果的影响,提出在实际数据中测试的方法可能提供更加真实的算法效果下限,同时呼吁定义主动学习最佳实践。
May, 2023
本研究旨在证明在相同实验条件下,不同类型的主动学习算法(基于不确定性、多样性和委员会的),与随机采样基准相比,产生的收益不一致,这种性能度量的差异性可能导致结果与以前报告的结果不一致,强正则化下,主动学习方法在各种实验条件下显示出微小或无优势,并提出一套关于如何评估主动学习算法的建议,以确保结果在实验条件变化下具有重复性和稳健性。
Feb, 2020
该研究通过将主动学习与自监督预训练相结合,并使用称为 Balanced Selection(BASE)的算法来解决类不平衡问题,提高图像分类性能,特别适用于工业级大规模数据标记和训练中。
Nov, 2021
本文提出一种新的主动学习算法,将 CNN 模型的输出从 softmax 替换为 Dirichlet 值,实现从未标记数据中提取最具信息量的标记数据集,该方法在多项数据集和医学图像识别领域中与其他主动学习方法相比均具有更高的性能表现和易于实现且不需要大量计算资源的优点。
Jul, 2020
本论文提出了一种基于梯度嵌入和预测校准的主动学习方法 Ask-n-Learn,结合数据扩增缓解伪标注期间的确认偏差,通过对基准图像分类任务(CIFAR-10,SVHN,Fashion-MNIST,MNIST)的经验研究,证明了该方法优于最近提出的 BADGE 算法等现有基线。
Sep, 2020
该研究探讨了在实际工业中使用表格语言模型的情景下,使用不同获取函数进行子单元命名实体识别的主题并发现 cell-level 获取函数具有内置多样性,可以显着降低标注工作量。同时还发现了存在人工标注方面的计算效率问题和未解决的问题。
Nov, 2022
在仅有限标记数据可用的情况下,主动学习通过设计查询策略来选择信息量最大的数据点进行标记,旨在提高学习算法的效率和性能。然而,目前缺乏对不同查询策略性能进行比较的标准化基准,特别是在将不同学习算法与主动学习流程相结合并考察学习算法选择的影响方面。为了弥补这一空白,我们提出了 ALPBench,用于支持主动学习流程的规范、执行和性能监控。它内置了可确保可重复评估的措施,保存了使用算法的精确数据集拆分和超参数设置。总共,ALPBench 包含 86 个真实的表格分类数据集和 5 个主动学习设置,产生 430 个主动学习问题。为了证明其对各种学习算法和查询策略的有用性和广泛兼容性,我们进行了一项示例研究,评估了 9 种查询策略与 8 种学习算法在两种不同设置下的表现。我们在此提供 ALPBench:[URL]
Jun, 2024
提出了一种能够在只有单类样本和无标签数据的情况下运作的主动学习算法,该方法通过分别估计正样本和未标记点的概率密度,计算信息性的期望值以获取更好的信息性度量。与其他类似方法相比,实验和经验分析结果表现出有前途的结果。
Feb, 2016