ALiPy: Python 中的主动学习

Jan, 2019

ALiPy: Active Learning in Python

Ying-Peng Tang, Guo-Xiang Li, Sheng-Jun Huang

TL;DR本文介绍了一个名为 ALiPy 的 Python 工具箱，可用于实现最新的有监督学习和主动学习算法，并支持多标签数据、噪声注释者和各种成本等不同的主动学习设置。该工具箱在 Github 上有完整的开源文档，可通过 PyPI 轻松安装。

Abstract

supervised machine learning methods usually require a large set of labeled examples for model training. However, in many real applications, there are plentiful unlabeled data but limited labeled data; and the acquisition of labels is costly. →

supervised machine learning active learning python toolbox state-of-the-art algorithms multi-label data

发现论文，激发创造

PyRelationAL: 一个用于主动学习研究和开发的 Python 库

介绍了一个名为 PyRelationAL 的机器学习活动学习的开源库，它可以帮助通过经济的数据获取方法迭代式地训练机器学习模型。该库实现了各种已发布的方法，并根据现有文献提供了广泛的基准数据集和 AL 任务配置。

May, 2022

ALE：面向自然语言处理的基于仿真的主动学习评估框架用于参数驱动的查询策略比较

使用可复现的主动学习评估框架来比较评估自然语言处理中的主动学习策略，并通过定义和跟踪实验参数，帮助实践者作出更明智的决策，同时帮助研究者开发出新的高效主动学习策略和制定最佳实践，从而降低注释成本。

Aug, 2023

物理学中的主动学习：从基础到进展和观点

主动学习是一种在人工智能时代之前就存在的机器学习算法家族，与传统方法相比，利用未标记的样本通过专家的标注来优先选择最具信息量的样本，从而提高模型性能。本文介绍了主动学习的理论，涵盖不同领域的最新进展，并探讨了主动学习与量子机器学习的潜力。

Jul, 2023

法律文本分类的高效主动学习流程

本研究提出了一种在法律领域内使用主动学习与预训练语言模型的管道，其中利用了三个阶段的未标记数据，通过知识蒸馏引导模型的嵌入到一个语义上有意义的空间，并提出了一种简单而有效的策略找到初始的标记样本，实验表明相比传统方法在数据标注成本上更为高效且性能更好。

Nov, 2022

主动学习：问题设置和最新发展

本文介绍了有监督学习中获取标记数据的高成本和获取大量未标记数据的轻松方法，以及通过自适应选择标记样本来获得高精度预测模型的主要问题设置和最近的研究趋势。重点介绍了选择从数据中进行标记的学习获取函数的研究、关于主动学习算法的理论工作和顺序数据获取的停止标准。介绍了材料开发和测量的应用示例。

Dec, 2020

DEAL: 图像分类的深度证据主动学习

本文提出一种新的主动学习算法，将 CNN 模型的输出从 softmax 替换为 Dirichlet 值，实现从未标记数据中提取最具信息量的标记数据集，该方法在多项数据集和医学图像识别领域中与其他主动学习方法相比均具有更高的性能表现和易于实现且不需要大量计算资源的优点。

Jul, 2020

关于模拟主动学习的限制

通过模拟现有标记的数据集作为未标记的数据池，探索了主动学习算法的评估与验证过程中存在的挑战及被忽略的因素对研究结果的影响，提出在实际数据中测试的方法可能提供更加真实的算法效果下限，同时呼吁定义主动学习最佳实践。

May, 2023

部署主动学习的实际障碍

本文研究了主题 “主动学习”，发现尽管在特定模型和特定领域中使用主动学习可能会带来好处，但在不同模型和任务之间泛化当前方法的好处不可靠，并且主动学习的认购数据与指导其获取的模型相结合，与使用独立同分布的（I.I.D）随机样本训练继任模型的方法相比并没有明显的优势，主动学习的局限性是否值得现实中的应用，值得深思。

Jul, 2018

ALPBench: 用于表格数据上的主动学习流水线评估的基准

在仅有限标记数据可用的情况下，主动学习通过设计查询策略来选择信息量最大的数据点进行标记，旨在提高学习算法的效率和性能。然而，目前缺乏对不同查询策略性能进行比较的标准化基准，特别是在将不同学习算法与主动学习流程相结合并考察学习算法选择的影响方面。为了弥补这一空白，我们提出了 ALPBench，用于支持主动学习流程的规范、执行和性能监控。它内置了可确保可重复评估的措施，保存了使用算法的精确数据集拆分和超参数设置。总共，ALPBench 包含 86 个真实的表格分类数据集和 5 个主动学习设置，产生 430 个主动学习问题。为了证明其对各种学习算法和查询策略的有用性和广泛兼容性，我们进行了一项示例研究，评估了 9 种查询策略与 8 种学习算法在两种不同设置下的表现。我们在此提供 ALPBench：[URL]

Jun, 2024

主动学习器的脆弱性

在针对文本分类的活跃学习技术中，选择正确的文本表示、分类器以及评估指标是至关重要的，因为不同的因素可能会导致活跃学习技术的有效性受到限制。

Mar, 2024