多样化小批量主动学习
研究了一种高效的批量主动学习算法,该算法结合不确定性和多样性概念,在批量设置中易于扩展,并与先前研究中使用的批量大小(100K-1M)相比提高模型训练效率。同时,还证明了相关采样方法的标签复杂度保证,该方法在特定情况下几乎等同于我们的采样方法。
Jul, 2021
提出一种新的批次模式主动学习算法 —— 判别式主动学习法(DAL),并将其应用在神经网络和大批次查询的情境中,尝试通过将标记集合和未标记的数据池区分开来作为选择样本的依据来执行主动学习,结果表明我们的方法在中等和大批次查询中与最先进的方法相当,并且在实现简单的同时还可以扩展到除分类任务之外的其他领域,同时,我们的实验还表明在相对较大的批次中,当批量大小较大时,当前现有的最先进方法均不比不确定性采样明显更好,从而推翻了一些最近文献中报道的结果。
Jul, 2019
本研究开发了一种基于支持向量分类的基础池式主动学习器的快速简单的实践方法,旨在解决很少标记数据点的情况下进行模型选择的挑战,并通过加权方法让模型在易于分类数据集和难以分类数据集之间取得平衡的最佳性能。
Dec, 2021
本文介绍了有监督学习中获取标记数据的高成本和获取大量未标记数据的轻松方法,以及通过自适应选择标记样本来获得高精度预测模型的主要问题设置和最近的研究趋势。重点介绍了选择从数据中进行标记的学习获取函数的研究、关于主动学习算法的理论工作和顺序数据获取的停止标准。介绍了材料开发和测量的应用示例。
Dec, 2020
本研究提出一种基于贝叶斯批量主动学习方法来解决大规模监督模型中标签获取成本高的问题,从而利用大量未标记数据来改善模型性能。此方法通过逼近模型参数的完整数据后验概率,并使用随机投影技术来推广到任意模型,从而使批处理的数据选择更加多样,有效降低了计算复杂度,并在多个大规模回归和分类任务上得到了证实。
Aug, 2019
该论文提出了一种新的基于聚类的主动学习框架 (ALCS),其中使用密度聚类方法探索数据的聚类结构,并引入基于双簇边界的样本查询程序以提高高度重叠类别分类的学习性能,此外,我们开发了有效的多样性探索策略来解决样本查询中的冗余问题,实验证明了该方法的有效性。
Jul, 2022
本研究展示了在异方差分布上运行的主流主动学习技术的灾难性失败,并提出了一种基于微调的方法以缓解这些失败,同时结合模型差别评分函数提出了一个新的算法,在清除噪声示例的同时最大化准确性,表现优异于现有的主动学习技术。
Nov, 2022
提出了一种主动和自适应地解决一系列机器学习问题的框架,该框架通过使用一些未标记数据池中的最具信息量的样本,利用先前步骤中获得的信息,使用基于随机梯度下降的主动学习算法来实现近乎最优的风险性能,并构建了一个学习问题变化的估计器,通过使用主动学习样本提供一种自适应的样本大小选择规则,以保证足够的时间步数时超额风险是有界的。
May, 2018