开放式主动学习策略的评估和解释
使用可复现的主动学习评估框架来比较评估自然语言处理中的主动学习策略,并通过定义和跟踪实验参数,帮助实践者作出更明智的决策,同时帮助研究者开发出新的高效主动学习策略和制定最佳实践,从而降低注释成本。
Aug, 2023
本文提出一种解决在打标签样本池中既包含目标类和非目标类的情况下如何查询样本的问题的方法 ——OpenAL,并在细粒度分类病理图像的实验中表明其可以显著提高目标类样本的查询质量,达到比当前最先进的主动学习方法更高的性能。
Jul, 2023
本文提出了一种可靠和可扩展的实现来重新评估现有主动学习策略的数据集,通过重新评估实验,我们不仅纠正了现有基准测试中的配置错误,还揭示了模型兼容性等问题。我们经验突出了把研究努力奉献给重新评估现有基准测试以产生更可信结果和深入洞察的重要性。
Jun, 2023
本文介绍了一种领域无关的主动学习(Active Learning)查询策略 ImitAL,使用学习排序(Learning-to-rank)方法编码 AL,通过大规模模拟运行在纯合成数据集上进行训练,成功地通过与其他 7 种查询策略在 13 个不同领域的数据集上的广泛评估。
Aug, 2022
本文研究了主题 “主动学习”,发现尽管在特定模型和特定领域中使用主动学习可能会带来好处,但在不同模型和任务之间泛化当前方法的好处不可靠,并且主动学习的认购数据与指导其获取的模型相结合,与使用独立同分布的(I.I.D)随机样本训练继任模型的方法相比并没有明显的优势,主动学习的局限性是否值得现实中的应用,值得深思。
Jul, 2018
通过模拟现有标记的数据集作为未标记的数据池,探索了主动学习算法的评估与验证过程中存在的挑战及被忽略的因素对研究结果的影响,提出在实际数据中测试的方法可能提供更加真实的算法效果下限,同时呼吁定义主动学习最佳实践。
May, 2023
提供了一种公平比较不同任务和领域中算法的主动学习框架,并提出了一种快速有效的评估算法。汇总了在 3 个主要领域(表格、图像和文本)上使用的 6 种广泛应用的算法在 7 个实际数据集和 2 个合成数据集上的实证结果,并形成了领域特定的主动学习算法排名。
Nov, 2023
在仅有限标记数据可用的情况下,主动学习通过设计查询策略来选择信息量最大的数据点进行标记,旨在提高学习算法的效率和性能。然而,目前缺乏对不同查询策略性能进行比较的标准化基准,特别是在将不同学习算法与主动学习流程相结合并考察学习算法选择的影响方面。为了弥补这一空白,我们提出了 ALPBench,用于支持主动学习流程的规范、执行和性能监控。它内置了可确保可重复评估的措施,保存了使用算法的精确数据集拆分和超参数设置。总共,ALPBench 包含 86 个真实的表格分类数据集和 5 个主动学习设置,产生 430 个主动学习问题。为了证明其对各种学习算法和查询策略的有用性和广泛兼容性,我们进行了一项示例研究,评估了 9 种查询策略与 8 种学习算法在两种不同设置下的表现。我们在此提供 ALPBench:[URL]
Jun, 2024
本研究探讨主动学习策略在降低时序分类任务中所需标记数据数量方面的应用,通过提出一种新的类平衡实例选择算法,有效地解决了不平衡时序数据集中的分类性能和实例选择偏差问题,并在触觉纹理识别和工业故障检测领域证明了该方法的有效性。
May, 2024