带有偏倚非响应的主动学习

Dec, 2023

Active learning with biased non-response to label requests

Thomas Robinson, Niek Tax, Richard Mudd, Ido Guy

TL;DR通过使用基于成本的采样策略，我们提出的上限置信界预期效用（UCB-EU）方法成功地减少了标注的非响应对模型性能的影响，特别是对于电子商务平台淘宝上通过点击印象训练的转化模型而言。

Abstract

active learning can improve the efficiency of training prediction models by identifying the most informative new labels to acquire. However, non-response to label requests can impact →

active learning non-response biased non-response sampling strategy conversion models

发现论文，激发创造

关于主动学习中的统计偏差：如何何时修正

本文探讨了主动学习中样本标注代价昂贵导致的偏差问题并提出了一种新的校正方法，解释了为何忽略这种偏差也能带来一些经验上的成功，尤其对参数众多的神经网络等少量数据训练情境下，这种偏差反而有益。

Jan, 2021

正类和未标注数据中的主动学习

提出了一种能够在只有单类样本和无标签数据的情况下运作的主动学习算法，该方法通过分别估计正样本和未标记点的概率密度，计算信息性的期望值以获取更好的信息性度量。与其他类似方法相比，实验和经验分析结果表现出有前途的结果。

Feb, 2016

基于增强树的基于模型不确定性的表格数据主动学习

本研究探讨了基于提升树的主动学习方法对表格数据的有效性，利用模型不确定性进行样本选择，并针对回归任务提出了一种成本效益高的主动学习方法，同时也提出了改进的成本效益高的分类任务的主动学习方法。

Oct, 2023

贝叶斯神经网络在主动学习中的有效性

本文研究使用贝叶斯神经网络进行主动学习，相较于集成技术更能有效地捕捉不确定性，拥有更好的模型效果，同时还揭示了集成技术的一些关键缺陷。

Apr, 2021

提高嘈杂数据集上主动学习的成本效益

主要介绍了主动学习策略在解决二分类问题中的应用，提出了一种基于偏移正态分布采样函数的方法，通过限制噪声和正类标签选择，提高了 20% 到 32% 的成本效率。

Mar, 2024

在贝叶斯主动学习中更好地利用无标签数据

全监督模型在贝叶斯主动学习中占主导地位，我们认为它们对未标记数据中的信息的忽视不仅损害了预测性能，也影响了关于获取哪些数据的决策。我们提出了一个简单的半监督贝叶斯主动学习框架，发现它比传统的贝叶斯主动学习或随机获取数据的半监督学习能够生成更好的模型。该框架也更易于扩展。除了支持向半监督模型的转变外，我们的发现还强调了研究模型和获取方法的重要性。

Apr, 2024

通过多任务双层优化学习主动学习的排序

活动学习是通过有选择性地请求标签以提高模型性能从而减少标注成本的一种有前途的范式。本研究提出了一种新的活动学习方法，通过一个学习的代理模型选择批次的未标记实例来进行数据获取，从而克服了现有活动学习方法所依赖于昂贵的获取函数计算、广泛的建模重训练和与注释者的多轮交互等局限性。

Oct, 2023

主动学习经验是否可转移？

本文研究主动学习中的迁移学习问题，提出了一种基于线性加权的主动学习模型，利用上下文强化学习算法 LinUCB 对其进行学习，再利用偏向正则化技术，将学习的经验应用于其他数据集，实验结果表明该方法有望在各类数据集上优化主动学习性能。

Aug, 2016

基于贝叶斯主动学习的生产系统研究与可重用库

本研究分析了当前主要的主动式学习技术中存在的主要缺点，并提出了缓解这些缺点的方法，包括使用部分不确定性采样和更大的查询大小加速主动式学习循环，并展示了开源贝叶斯主动式学习库 BaaL。

Jun, 2020

主动统计推理

活跃推理是一种与机器学习辅助数据收集相结合的统计推理方法，它通过在有限的标签收集预算下，利用机器学习模型识别哪些数据点最有利于标记，从而有效地利用资源。

Mar, 2024