小数据的模型选择实用主动学习
该论文研究了主动学习中困难的预测模型选择问题,并提出一种基于模型探针(model probes)的方法Biased-Robin Algorithm,能够在相同成本和先验概率下有效地选择模型。
Jul, 2012
通过交互查询子集示例的标签,主动学习器在模型类和大量未标记示例的情况下学习适合数据的模型。本文提供了一个适用于极大似然估计的两阶段主动学习算法和标签需求的上限和下限分析,并表明这种方法在一些情况下可以实现近乎最优的性能。
Jun, 2015
本研究旨在证明在相同实验条件下,不同类型的主动学习算法(基于不确定性、多样性和委员会的),与随机采样基准相比,产生的收益不一致,这种性能度量的差异性可能导致结果与以前报告的结果不一致,强正则化下,主动学习方法在各种实验条件下显示出微小或无优势,并提出一套关于如何评估主动学习算法的建议,以确保结果在实验条件变化下具有重复性和稳健性。
Feb, 2020
本文介绍了一种新的样本效率模型评估框架——主动测试,通过精心选择要标记的测试点,以充分利用样本,解决了现有文献大都忽略了标记测试数据的成本,从而导致模型评估与实际应用的脱节的问题,在理论上建立了基于目标的获取策略并做了进一步的改进,以消除引入的偏差并在相同时间内降低估计方差。
Mar, 2021
本文提出了一种可靠和可扩展的实现来重新评估现有主动学习策略的数据集,通过重新评估实验,我们不仅纠正了现有基准测试中的配置错误,还揭示了模型兼容性等问题。我们经验突出了把研究努力奉献给重新评估现有基准测试以产生更可信结果和深入洞察的重要性。
Jun, 2023
提出了一种新的 $REAL$ 方法,使用代表性伪误差来选择数据实例用于主动学习,从而提高文本分类模型的性能,该方法在五个数据集上实验表明,在各种超参数设置下,$REAL$ 一直优于所有最佳表现基线。
Jul, 2023
通过改进深度学习模型的标签和训练效率,此研究旨在增强深度学习的实用性。具体地,研究基于信息论原理的数据子集选择技术,包括主动学习和主动采样,其中主动学习提高了标签效率,而主动采样增强了训练效率,并系统研究了这些技术在深度学习中的应用。
Jan, 2024
主要介绍了主动学习策略在解决二分类问题中的应用,提出了一种基于偏移正态分布采样函数的方法,通过限制噪声和正类标签选择,提高了20%到32%的成本效率。
Mar, 2024
使用包装器主动学习方法对分类问题进行改进,通过在初始标记样本上构建分类树,将空间分解为低熵区域,再使用基于输入空间的准则从这些区域中进行子采样,并证明了该方法在使用受限标记数据集时构建准确分类模型的有效性。
Apr, 2024