自适应采集的深度主动学习
活动学习是通过有选择性地请求标签以提高模型性能从而减少标注成本的一种有前途的范式。本研究提出了一种新的活动学习方法,通过一个学习的代理模型选择批次的未标记实例来进行数据获取,从而克服了现有活动学习方法所依赖于昂贵的获取函数计算、广泛的建模重训练和与注释者的多轮交互等局限性。
Oct, 2023
本文介绍了有监督学习中获取标记数据的高成本和获取大量未标记数据的轻松方法,以及通过自适应选择标记样本来获得高精度预测模型的主要问题设置和最近的研究趋势。重点介绍了选择从数据中进行标记的学习获取函数的研究、关于主动学习算法的理论工作和顺序数据获取的停止标准。介绍了材料开发和测量的应用示例。
Dec, 2020
通过实验和分析证明了不确定性在黑素瘤检测任务中是有用的,并且证实了作者提出的 BALD 方法在平均性能上优于其他获取函数。然而,进一步的分析揭示了所有获得函数在阳性(癌症)样本上表现不佳,暗示了类别不平衡的利用,在真实世界环境中可能是关键的。
Jan, 2024
本文提出了一种基于对比样例的主动学习获取函数,通过在模型特征空间中选择相似的数据点,但能够在预测分布上得到最大差异的方式来选择难以区分和多样化的数据点,在自然语言理解的四个任务和七个数据集的实验中,相比其他传统的获取函数,我们的方法表现更稳定更好,并在主域和异域的数据上都有很好的表现。
Sep, 2021
该论文研究了主动学习中困难的预测模型选择问题,并提出一种基于模型探针(model probes)的方法 Biased-Robin Algorithm,能够在相同成本和先验概率下有效地选择模型。
Jul, 2012
本文提出了一种通过本地扰动选择数据点,进一步加强数据采集函数的主动学习方法,并在多种分类任务和基于提示的少样本学习的研究中取得了一致的利益和改进,证明了我们的敏感性和硬度引导的数据采集方法对许多 NLP 任务来说是有效和有益的。
May, 2022
提出一种基于主动规划神经网络的在线决策树构建方法,利用自适应子模性来选择获取具有最小代价的特征值,通过后验采样算法降低在线预测误差,对各种现实世界中的数据集进行了广泛的实验,并在概念漂移的情况下展示其有效性和灵活性。
May, 2023
利用主动学习训练策略可以建立一个问题回答模型,以更小的注释成本实现,该策略选择最具信息量的未标记训练数据以有效地更新模型,该研究提出一种基于扰动的主动学习采集策略,并证明其比现有常用策略更有效。
Nov, 2023
提供了一个新的框架,通过强化学习问题对活动特征获取问题进行建模,并引入了一种更系统完善的特征子集编码机制,该方法使用无序 LSTM-based 的集合编码机制来进行学习,从而在包含有缺失条目的情况下得到了很好的应用,并在活动特征获取方面性能均优于其他基线系统。
Sep, 2017