面向可计算的深度主动学习

ACLMay, 2022

Towards Computationally Feasible Deep Active Learning

Akim Tsvigun, Artem Shelmanov, Gleb Kuzmin, Leonid Sanochkin, Daniil Larionov...

TL;DR该研究介绍了两种用于文本分类和标记任务的技术，可以显著减少深度学习中主动学习繁重的计算资源需求，通过伪标签和蒸馏模型实现更高性能的模型训练。

Abstract

active learning (AL) is a prominent technique for reducing the annotation effort required for training machine learning models. deep learning offers a solution for several essential obstacles to deploying AL in p

active learning deep learning text classification tagging tasks pseudo-labeling

发现论文，激发创造

深度主动学习综述

这篇文章探讨了深度主动学习的现状和未来发展方向，介绍了目前现有的挖掘数据特征的多种方法，并且对 “深度主动学习” 进行了定义和系统梳理。

Aug, 2020

部署主动学习的实际障碍

本文研究了主题 “主动学习”，发现尽管在特定模型和特定领域中使用主动学习可能会带来好处，但在不同模型和任务之间泛化当前方法的好处不可靠，并且主动学习的认购数据与指导其获取的模型相结合，与使用独立同分布的（I.I.D）随机样本训练继任模型的方法相比并没有明显的优势，主动学习的局限性是否值得现实中的应用，值得深思。

Jul, 2018

DEAL: 图像分类的深度证据主动学习

本文提出一种新的主动学习算法，将 CNN 模型的输出从 softmax 替换为 Dirichlet 值，实现从未标记数据中提取最具信息量的标记数据集，该方法在多项数据集和医学图像识别领域中与其他主动学习方法相比均具有更高的性能表现和易于实现且不需要大量计算资源的优点。

Jul, 2020

自然语言处理的深度贝叶斯主动学习：一项大规模实证研究结果

本篇论文就深度主动学习进行了大规模实证研究，针对多种任务和数据集、模型以及获取函数，证实贝叶斯主动学习方法在许多方面都优于传统的不确定性采样方法。

Aug, 2018

资源受限环境中的深度主动音频特征学习

讨论一种在生物声学应用中使用主动学习框架并结合特征提取的方法，能够有效减少数据标记的工作量，提高分类模型的效果。

Aug, 2023

基于扰动的主动学习问答

利用主动学习训练策略可以建立一个问题回答模型，以更小的注释成本实现，该策略选择最具信息量的未标记训练数据以有效地更新模型，该研究提出一种基于扰动的主动学习采集策略，并证明其比现有常用策略更有效。

Nov, 2023

使用神经网络实现鲁棒性和可重现的主动学习

本研究旨在证明在相同实验条件下，不同类型的主动学习算法（基于不确定性、多样性和委员会的），与随机采样基准相比，产生的收益不一致，这种性能度量的差异性可能导致结果与以前报告的结果不一致，强正则化下，主动学习方法在各种实验条件下显示出微小或无优势，并提出一套关于如何评估主动学习算法的建议，以确保结果在实验条件变化下具有重复性和稳健性。

Feb, 2020

抽象文本摘要的主动学习

本文提出了第一个基于多样性原则的主动学习查询策略来缓解抽象文本摘要中昂贵的注释成本，并分析了自学习的效果。该策略可以帮助提高 ROUGE 和一致性分数。

Jan, 2023

深度主动学习的比较调查

研究 DAL 的不同方法，提出 DeepAL+ 工具包，并通过分类实验评估 DAL 方法的性能效果，提供更好的数据标注方法以提高模型性能。

Mar, 2022

主动二次学习：在序列标注和机器翻译的主动学习方法中主动减少冗余

本文介绍了一种名为 Active² Learning 的主动学习策略，该策略可与多种 AL 策略和 NLP 任务结合使用，并能减少 3-25％的数据要求而无需额外计算开销。

Nov, 2019