低预算主动学习中的小样本偏差调节

Jun, 2023

低预算主动学习中的小样本偏差调节

Taming Small-sample Bias in Low-budget Active Learning

Linxin Song, Jieyu Zhang, Xiaotian Lu, Tianyi Zhou

TL;DR本文针对低成本主动学习中小样本偏差问题，提出了一种名为 Firth 偏差降低的正则化方法，通过整合课程学习链技术来自动调整系数以提高主动学习的效率和性能。

Abstract

active learning (AL) aims to minimize the annotation cost by only querying a few informative examples for each model training stage. However, training a model on a few queried examples suffers from the

active learning annotation cost small-sample bias firth bias reduction curriculum learning

发现论文，激发创造

在主动学习中减轻采样偏差并提高鲁棒性

该论文提出了简单而高效的方法来减轻主动学习中的采样偏差，同时实现最先进的精度和模型鲁棒性。通过引入有监督对比主动学习和选择具有多样的特性表示的信息性数据样本的无偏查询策略，我们的方法：SCAL 和 DFM，实验表明，所提出的方法降低了采样偏差，在主动学习设置中，查询计算速度比基于贝叶斯的对抗式学习快 26 倍，比 CoreSet 快 11 倍。所提出的 SCAL 方法在对抗性数据集转移和预测真实分布方面具有显着的优势。

Sep, 2021

积极学习是否可以预防公平性问题？

本文研究使用基于不确定性的主动学习启发式方法（如 BALD）训练的模型是否比使用独立同分布（i.i.d.）采样训练的模型在决策中对受保护类别具有更高的预测平等性，并探讨了算法公平性方法（如 GRAD 和 BALD）的交互作用，表明在大多数基准和度量标准上交互作用进一步提高了结果。

Apr, 2021

低数据环境下公正主动学习

在数据稀缺环境中，通过结合后验采样和公平分类子程序的创新主动学习框架，我们有效地提高了模型准确性并满足公平约束，证明了该方法在最大限度利用少量标注数据时的有效性，并对已有方法进行了改进。

Dec, 2023

通过 Fisher Kernel 自监督的深度主动学习用于偏置数据集

本文提出了一种用于半监督主动学习的数据获取函数，通过考虑训练数据集的分布移位来解决数据偏倚问题，并使用自监督 Fisher kernel 来进行特征匹配，实现了对 MNIST、SVHN 和 ImageNet 分类的优化，并且与现有的方法相比可以减少至少 40% 的标注工作量。

Mar, 2020

从数据中学习主动学习

本文提出了一种新的基于数据驱动的主动学习方法，该方法将问题选择过程描述为回归问题以学习基于以前经验的策略，具有广泛的适用性。

Mar, 2017

部署主动学习的实际障碍

本文研究了主题 “主动学习”，发现尽管在特定模型和特定领域中使用主动学习可能会带来好处，但在不同模型和任务之间泛化当前方法的好处不可靠，并且主动学习的认购数据与指导其获取的模型相结合，与使用独立同分布的（I.I.D）随机样本训练继任模型的方法相比并没有明显的优势，主动学习的局限性是否值得现实中的应用，值得深思。

Jul, 2018

边界事关：一个双级主动微调框架

我们提出了一个二阶段的主动微调框架，其中包括核心样本选择以增加多样性，以及边界样本选择以增加不确定性，通过在高维特征空间中识别伪类别中心、创新去噪方法和迭代策略，无需真实标签即可选择需要注释的样本，我们的综合实验证据量化地证明了我们的方法比现有基线表现更好。

Mar, 2024

主动学习器的脆弱性

在针对文本分类的活跃学习技术中，选择正确的文本表示、分类器以及评估指标是至关重要的，因为不同的因素可能会导致活跃学习技术的有效性受到限制。

Mar, 2024

一个带有类平衡策略的时间序列分类的主动学习框架

本研究探讨主动学习策略在降低时序分类任务中所需标记数据数量方面的应用，通过提出一种新的类平衡实例选择算法，有效地解决了不平衡时序数据集中的分类性能和实例选择偏差问题，并在触觉纹理识别和工业故障检测领域证明了该方法的有效性。

May, 2024

深度主动分类中的采样偏差：实证研究

本文通过大量经验研究，证明了利用 FastText.zip（FTZ）深度模型的后验熵进行主动集合选择对抗采样偏差和各种算法选择具有鲁棒性，并提出了基于深度主动文本分类的简单基线，可用于数据集压缩和半监督 / 在线学习场景。

Sep, 2019