从数据中学习主动学习
本文研究了主题 “主动学习”,发现尽管在特定模型和特定领域中使用主动学习可能会带来好处,但在不同模型和任务之间泛化当前方法的好处不可靠,并且主动学习的认购数据与指导其获取的模型相结合,与使用独立同分布的(I.I.D)随机样本训练继任模型的方法相比并没有明显的优势,主动学习的局限性是否值得现实中的应用,值得深思。
Jul, 2018
该研究提出了一个通用的方法来发现可以从数据中转移的主动学习策略,通过将注释过程形式化为马尔可夫决策过程,设计出通用的状态和动作空间,并引入了一个新的奖励函数,该函数可以准确地模拟最小化注释成本的主动学习目标。然后,使用强化学习来寻找最优的主动学习策略,并在多个不相关的领域对学习后的策略进行了评估,表明它们始终优于现有技术基线。
Oct, 2018
本论文提出了一种基于梯度嵌入和预测校准的主动学习方法 Ask-n-Learn,结合数据扩增缓解伪标注期间的确认偏差,通过对基准图像分类任务(CIFAR-10,SVHN,Fashion-MNIST,MNIST)的经验研究,证明了该方法优于最近提出的 BADGE 算法等现有基线。
Sep, 2020
该论文提出了两种基于贪心采样的主动学习方法,一种选择增加输出空间中的多样性,另一种选择增加输入和输出空间的多样性,经过大量实验验证在各种领域的数据集和驾驶员昏沉感估计中都具有很好的效果和鲁棒性。
Aug, 2018
使用元学习框架,将主动学习算法视为学习问题,并使用强化学习训练一个输入基础学习器状态和未标记点集的深度神经网络,预测下一个最佳注释点,使用多任务数据集嵌入方法,使得算法可以直接推广到不同的问题。
Jun, 2018
本文介绍了有监督学习中获取标记数据的高成本和获取大量未标记数据的轻松方法,以及通过自适应选择标记样本来获得高精度预测模型的主要问题设置和最近的研究趋势。重点介绍了选择从数据中进行标记的学习获取函数的研究、关于主动学习算法的理论工作和顺序数据获取的停止标准。介绍了材料开发和测量的应用示例。
Dec, 2020
该论文提出了将主动学习重新表述为一种强化学习问题,并明确学习数据选择策略,其中策略充当主动学习启发式算法的角色,以解决启发式选择方法的有效性受限且性能因数据集而异的问题。我们使用跨语言命名实体识别来演示我们的方法,发现相对于传统的主动学习,我们的方法获得了均衡的改进。
Aug, 2017
使用可复现的主动学习评估框架来比较评估自然语言处理中的主动学习策略,并通过定义和跟踪实验参数,帮助实践者作出更明智的决策,同时帮助研究者开发出新的高效主动学习策略和制定最佳实践,从而降低注释成本。
Aug, 2023
本研究旨在证明在相同实验条件下,不同类型的主动学习算法(基于不确定性、多样性和委员会的),与随机采样基准相比,产生的收益不一致,这种性能度量的差异性可能导致结果与以前报告的结果不一致,强正则化下,主动学习方法在各种实验条件下显示出微小或无优势,并提出一套关于如何评估主动学习算法的建议,以确保结果在实验条件变化下具有重复性和稳健性。
Feb, 2020
本文介绍了一种领域无关的主动学习(Active Learning)查询策略 ImitAL,使用学习排序(Learning-to-rank)方法编码 AL,通过大规模模拟运行在纯合成数据集上进行训练,成功地通过与其他 7 种查询策略在 13 个不同领域的数据集上的广泛评估。
Aug, 2022