ALiPy: Python 中的主动学习
介绍了一个名为 PyRelationAL 的机器学习活动学习的开源库,它可以帮助通过经济的数据获取方法迭代式地训练机器学习模型。该库实现了各种已发布的方法,并根据现有文献提供了广泛的基准数据集和 AL 任务配置。
May, 2022
使用可复现的主动学习评估框架来比较评估自然语言处理中的主动学习策略,并通过定义和跟踪实验参数,帮助实践者作出更明智的决策,同时帮助研究者开发出新的高效主动学习策略和制定最佳实践,从而降低注释成本。
Aug, 2023
主动学习是一种在人工智能时代之前就存在的机器学习算法家族,与传统方法相比,利用未标记的样本通过专家的标注来优先选择最具信息量的样本,从而提高模型性能。本文介绍了主动学习的理论,涵盖不同领域的最新进展,并探讨了主动学习与量子机器学习的潜力。
Jul, 2023
本研究提出了一种在法律领域内使用主动学习与预训练语言模型的管道,其中利用了三个阶段的未标记数据,通过知识蒸馏引导模型的嵌入到一个语义上有意义的空间,并提出了一种简单而有效的策略找到初始的标记样本,实验表明相比传统方法在数据标注成本上更为高效且性能更好。
Nov, 2022
本文介绍了有监督学习中获取标记数据的高成本和获取大量未标记数据的轻松方法,以及通过自适应选择标记样本来获得高精度预测模型的主要问题设置和最近的研究趋势。重点介绍了选择从数据中进行标记的学习获取函数的研究、关于主动学习算法的理论工作和顺序数据获取的停止标准。介绍了材料开发和测量的应用示例。
Dec, 2020
本文提出一种新的主动学习算法,将 CNN 模型的输出从 softmax 替换为 Dirichlet 值,实现从未标记数据中提取最具信息量的标记数据集,该方法在多项数据集和医学图像识别领域中与其他主动学习方法相比均具有更高的性能表现和易于实现且不需要大量计算资源的优点。
Jul, 2020
通过模拟现有标记的数据集作为未标记的数据池,探索了主动学习算法的评估与验证过程中存在的挑战及被忽略的因素对研究结果的影响,提出在实际数据中测试的方法可能提供更加真实的算法效果下限,同时呼吁定义主动学习最佳实践。
May, 2023
本文研究了主题 “主动学习”,发现尽管在特定模型和特定领域中使用主动学习可能会带来好处,但在不同模型和任务之间泛化当前方法的好处不可靠,并且主动学习的认购数据与指导其获取的模型相结合,与使用独立同分布的(I.I.D)随机样本训练继任模型的方法相比并没有明显的优势,主动学习的局限性是否值得现实中的应用,值得深思。
Jul, 2018
在仅有限标记数据可用的情况下,主动学习通过设计查询策略来选择信息量最大的数据点进行标记,旨在提高学习算法的效率和性能。然而,目前缺乏对不同查询策略性能进行比较的标准化基准,特别是在将不同学习算法与主动学习流程相结合并考察学习算法选择的影响方面。为了弥补这一空白,我们提出了 ALPBench,用于支持主动学习流程的规范、执行和性能监控。它内置了可确保可重复评估的措施,保存了使用算法的精确数据集拆分和超参数设置。总共,ALPBench 包含 86 个真实的表格分类数据集和 5 个主动学习设置,产生 430 个主动学习问题。为了证明其对各种学习算法和查询策略的有用性和广泛兼容性,我们进行了一项示例研究,评估了 9 种查询策略与 8 种学习算法在两种不同设置下的表现。我们在此提供 ALPBench:[URL]
Jun, 2024