ImitAL: 在合成数据上学习的主动学习策略
本文探讨了如何将基于不确定性的查询策略与transformers相结合以实现active learning,通过在五个广泛使用的文本分类基准测试中与其他不确定性策略进行比较,发现一些其他不确定性策略表现更好,挑战了prediction entropy查询策略在文本分类的active learning中最受欢迎的基线模型的地位。
Jul, 2021
研究了一种高效的批量主动学习算法,该算法结合不确定性和多样性概念,在批量设置中易于扩展,并与先前研究中使用的批量大小(100K-1M)相比提高模型训练效率。同时,还证明了相关采样方法的标签复杂度保证,该方法在特定情况下几乎等同于我们的采样方法。
Jul, 2021
通过模拟现有标记的数据集作为未标记的数据池,探索了主动学习算法的评估与验证过程中存在的挑战及被忽略的因素对研究结果的影响,提出在实际数据中测试的方法可能提供更加真实的算法效果下限,同时呼吁定义主动学习最佳实践。
May, 2023
使用可复现的主动学习评估框架来比较评估自然语言处理中的主动学习策略,并通过定义和跟踪实验参数,帮助实践者作出更明智的决策,同时帮助研究者开发出新的高效主动学习策略和制定最佳实践,从而降低注释成本。
Aug, 2023
提供了一种公平比较不同任务和领域中算法的主动学习框架,并提出了一种快速有效的评估算法。汇总了在3个主要领域(表格、图像和文本)上使用的6种广泛应用的算法在7个实际数据集和2个合成数据集上的实证结果,并形成了领域特定的主动学习算法排名。
Nov, 2023
在仅有限标记数据可用的情况下,主动学习通过设计查询策略来选择信息量最大的数据点进行标记,旨在提高学习算法的效率和性能。然而,目前缺乏对不同查询策略性能进行比较的标准化基准,特别是在将不同学习算法与主动学习流程相结合并考察学习算法选择的影响方面。为了弥补这一空白,我们提出了ALPBench,用于支持主动学习流程的规范、执行和性能监控。它内置了可确保可重复评估的措施,保存了使用算法的精确数据集拆分和超参数设置。总共,ALPBench包含86个真实的表格分类数据集和5个主动学习设置,产生430个主动学习问题。为了证明其对各种学习算法和查询策略的有用性和广泛兼容性,我们进行了一项示例研究,评估了9种查询策略与8种学习算法在两种不同设置下的表现。我们在此提供ALPBench:[URL]
Jun, 2024
本研究解决了主动学习算法在不同数据场景下效果差异大和选择合适算法的难题。我们提出了一种名为AutoAL的可微分主动学习策略搜索方法,通过两个神经网络在可微分的双层优化框架下共同优化,从而有效识别最优的主动学习策略,显著提高了模型的准确性。此方法展示了在多样任务和领域中整合现有主动学习方法的潜力。
Oct, 2024