低预算主动学习中的小样本偏差调节
该论文提出了简单而高效的方法来减轻主动学习中的采样偏差,同时实现最先进的精度和模型鲁棒性。通过引入有监督对比主动学习和选择具有多样的特性表示的信息性数据样本的无偏查询策略,我们的方法:SCAL 和 DFM,实验表明,所提出的方法降低了采样偏差,在主动学习设置中,查询计算速度比基于贝叶斯的对抗式学习快 26 倍,比 CoreSet 快 11 倍。所提出的 SCAL 方法在对抗性数据集转移和预测真实分布方面具有显着的优势。
Sep, 2021
本文研究使用基于不确定性的主动学习启发式方法(如 BALD)训练的模型是否比使用独立同分布(i.i.d.)采样训练的模型在决策中对受保护类别具有更高的预测平等性,并探讨了算法公平性方法(如 GRAD 和 BALD)的交互作用,表明在大多数基准和度量标准上交互作用进一步提高了结果。
Apr, 2021
在数据稀缺环境中,通过结合后验采样和公平分类子程序的创新主动学习框架,我们有效地提高了模型准确性并满足公平约束,证明了该方法在最大限度利用少量标注数据时的有效性,并对已有方法进行了改进。
Dec, 2023
本文提出了一种用于半监督主动学习的数据获取函数,通过考虑训练数据集的分布移位来解决数据偏倚问题,并使用自监督 Fisher kernel 来进行特征匹配,实现了对 MNIST、SVHN 和 ImageNet 分类的优化,并且与现有的方法相比可以减少至少 40% 的标注工作量。
Mar, 2020
本文研究了主题 “主动学习”,发现尽管在特定模型和特定领域中使用主动学习可能会带来好处,但在不同模型和任务之间泛化当前方法的好处不可靠,并且主动学习的认购数据与指导其获取的模型相结合,与使用独立同分布的(I.I.D)随机样本训练继任模型的方法相比并没有明显的优势,主动学习的局限性是否值得现实中的应用,值得深思。
Jul, 2018
我们提出了一个二阶段的主动微调框架,其中包括核心样本选择以增加多样性,以及边界样本选择以增加不确定性,通过在高维特征空间中识别伪类别中心、创新去噪方法和迭代策略,无需真实标签即可选择需要注释的样本,我们的综合实验证据量化地证明了我们的方法比现有基线表现更好。
Mar, 2024
本研究探讨主动学习策略在降低时序分类任务中所需标记数据数量方面的应用,通过提出一种新的类平衡实例选择算法,有效地解决了不平衡时序数据集中的分类性能和实例选择偏差问题,并在触觉纹理识别和工业故障检测领域证明了该方法的有效性。
May, 2024
本文通过大量经验研究,证明了利用 FastText.zip(FTZ)深度模型的后验熵进行主动集合选择对抗采样偏差和各种算法选择具有鲁棒性,并提出了基于深度主动文本分类的简单基线,可用于数据集压缩和半监督 / 在线学习场景。
Sep, 2019