提高嘈杂数据集上主动学习的成本效益

Mar, 2024

提高嘈杂数据集上主动学习的成本效益

Improve Cost Efficiency of Active Learning over Noisy Dataset

Zan-Kai Chong, Hiroyuki Ohsaki, Bryan Ng

TL;DR主要介绍了主动学习策略在解决二分类问题中的应用，提出了一种基于偏移正态分布采样函数的方法，通过限制噪声和正类标签选择，提高了 20% 到 32% 的成本效率。

Abstract

active learning is a learning strategy whereby the machine learning algorithm actively identifies and labels data points to optimize its learning. This strategy is particularly effective in domains where an abund

active learning machine learning algorithm binary classification shifted normal distribution sampling function cost efficiency

发现论文，激发创造

正类和未标注数据中的主动学习

提出了一种能够在只有单类样本和无标签数据的情况下运作的主动学习算法，该方法通过分别估计正样本和未标记点的概率密度，计算信息性的期望值以获取更好的信息性度量。与其他类似方法相比，实验和经验分析结果表现出有前途的结果。

Feb, 2016

计算高效的主动学习

通过简单而有效的方法不仅可以降低主动学习过程的计算成本，还能保持模型性能，从而优化大规模数据集的标注效率。

Jan, 2024

部署主动学习的实际障碍

本文研究了主题 “主动学习”，发现尽管在特定模型和特定领域中使用主动学习可能会带来好处，但在不同模型和任务之间泛化当前方法的好处不可靠，并且主动学习的认购数据与指导其获取的模型相结合，与使用独立同分布的（I.I.D）随机样本训练继任模型的方法相比并没有明显的优势，主动学习的局限性是否值得现实中的应用，值得深思。

Jul, 2018

主动学习：问题设置和最新发展

本文介绍了有监督学习中获取标记数据的高成本和获取大量未标记数据的轻松方法，以及通过自适应选择标记样本来获得高精度预测模型的主要问题设置和最近的研究趋势。重点介绍了选择从数据中进行标记的学习获取函数的研究、关于主动学习算法的理论工作和顺序数据获取的停止标准。介绍了材料开发和测量的应用示例。

Dec, 2020

DIRECT: 不平衡和标签噪音下的深度主动学习

通过一种新颖的算法 DIRECT，该论文提出了解决机器学习中不平衡问题的有效技术，通过收集更平衡和信息丰富的标记示例来进行注释，相较于现有算法，该算法节省了超过 15% 的注释预算。

Dec, 2023

非参数主动学习用于成本敏感分类

设计了一种用于成本敏感分类的通用非参数主动学习算法，通过构建每个标签的预测成本函数的置信区间，该算法选择最具信息量的向量点，通过仅查询可能是最小的预测成本来与其交互，证明了该算法在与向量空间的交互数量方面达到了最优收敛速率，并且在对 Tsybakov 的噪声假设的一般版本中，通过边界决策的概率质量明确表征了相对于相应被动学习方法的收益，并且通过提供匹配的（仅差对数因子的）下界证明了获得上界的接近最优性。

Sep, 2023

深度主动学习中易于翻转样本的查询

该研究提出了一种基于最小不一致度量的主动学习方法，通过计算预测标签的最小不一致概率来选择查询无标签数据，实验结果表明该方法在多个数据集和深度架构上均获得了领先的性能。

Jan, 2024

异方差分布上的神经主动学习

本研究展示了在异方差分布上运行的主流主动学习技术的灾难性失败，并提出了一种基于微调的方法以缓解这些失败，同时结合模型差别评分函数提出了一个新的算法，在清除噪声示例的同时最大化准确性，表现优异于现有的主动学习技术。

Nov, 2022

低数据环境下公正主动学习

在数据稀缺环境中，通过结合后验采样和公平分类子程序的创新主动学习框架，我们有效地提高了模型准确性并满足公平约束，证明了该方法在最大限度利用少量标注数据时的有效性，并对已有方法进行了改进。

Dec, 2023

深度主动学习破除幻觉

该研究旨在评估目前基于最新学习方法下的图像分类的主动学习策略的有效性，并且在更实际的情况下验证了选择语义分割的方法，其提出了一种更合适的评估协议。

Dec, 2019