关于主动学习中的统计偏差:如何何时修正
在数据稀缺环境中,通过结合后验采样和公平分类子程序的创新主动学习框架,我们有效地提高了模型准确性并满足公平约束,证明了该方法在最大限度利用少量标注数据时的有效性,并对已有方法进行了改进。
Dec, 2023
提供了一个实用的、统计上连贯的方案,可在通用损失函数下主动学习二分类器,该算法使用重要性加权来纠正抽样偏差,并通过控制变量来给出严格的标签复杂性界限,实验表明,该方法减少了实现许多学习问题的良好预测性能所需的标签复杂性。
Dec, 2008
本文介绍了有监督学习中获取标记数据的高成本和获取大量未标记数据的轻松方法,以及通过自适应选择标记样本来获得高精度预测模型的主要问题设置和最近的研究趋势。重点介绍了选择从数据中进行标记的学习获取函数的研究、关于主动学习算法的理论工作和顺序数据获取的停止标准。介绍了材料开发和测量的应用示例。
Dec, 2020
主要介绍了主动学习策略在解决二分类问题中的应用,提出了一种基于偏移正态分布采样函数的方法,通过限制噪声和正类标签选择,提高了 20% 到 32% 的成本效率。
Mar, 2024
该研究提出了两种新颖的方法来解决主动学习场景中出现的过度自信问题,一种是名为 Cross-Mix-and-Mix(CMaM)的数据扩增策略,旨在通过扩展有限的训练分布来校准模型;另一种是名为 Ranked Margin Sampling(RankedMS)的数据选择策略,以防止选择导致过度自信预测的数据。通过各种实验和分析,我们能够证明我们的提议通过缓解过度自信,促进了有效的数据选择。
Aug, 2023
本研究分析了当前主要的主动式学习技术中存在的主要缺点,并提出了缓解这些缺点的方法,包括使用部分不确定性采样和更大的查询大小加速主动式学习循环,并展示了开源贝叶斯主动式学习库 BaaL。
Jun, 2020
探索了主动学习与被动学习过程中不同推理程序的应用,针对不平衡数据和 HLT 任务中用成本加权的 SVM 进行了研究,提出了一种基于总体不平衡性估计而非标记的训练数据的方法来解决数据不平衡的问题。
Sep, 2014
通过使用基于成本的采样策略,我们提出的上限置信界预期效用(UCB-EU)方法成功地减少了标注的非响应对模型性能的影响,特别是对于电子商务平台淘宝上通过点击印象训练的转化模型而言。
Dec, 2023
本文提出了一种数学公式来证明数据集中的偏见对分类器的影响,通过无需改变标签来重新计算数据点的值,从而得到一个无偏分类器,这种方法可以在各种机器学习算法中使用,并实现了公平分类的目标。
Jan, 2019