基于扰动的主动学习问答

Nov, 2023

Perturbation-based Active Learning for Question Answering

Fan Luo, Mihai Surdeanu

TL;DR利用主动学习训练策略可以建立一个问题回答模型，以更小的注释成本实现，该策略选择最具信息量的未标记训练数据以有效地更新模型，该研究提出一种基于扰动的主动学习采集策略，并证明其比现有常用策略更有效。

Abstract

Building a question answering (QA) model with less annotation costs can be achieved by utilizing active learning (AL) training strategy. I

question answering active learning annotation costs informative unlabeled training data perturbation-based active learning acquisition strategy

发现论文，激发创造

面向可计算的深度主动学习

该研究介绍了两种用于文本分类和标记任务的技术，可以显著减少深度学习中主动学习繁重的计算资源需求，通过伪标签和蒸馏模型实现更高性能的模型训练。

May, 2022

部署主动学习的实际障碍

本文研究了主题 “主动学习”，发现尽管在特定模型和特定领域中使用主动学习可能会带来好处，但在不同模型和任务之间泛化当前方法的好处不可靠，并且主动学习的认购数据与指导其获取的模型相结合，与使用独立同分布的（I.I.D）随机样本训练继任模型的方法相比并没有明显的优势，主动学习的局限性是否值得现实中的应用，值得深思。

Jul, 2018

自然语言处理的深度贝叶斯主动学习：一项大规模实证研究结果

本篇论文就深度主动学习进行了大规模实证研究，针对多种任务和数据集、模型以及获取函数，证实贝叶斯主动学习方法在许多方面都优于传统的不确定性采样方法。

Aug, 2018

Ask-n-Learn：基于可靠梯度表示的主动学习图像分类

本论文提出了一种基于梯度嵌入和预测校准的主动学习方法 Ask-n-Learn，结合数据扩增缓解伪标注期间的确认偏差，通过对基准图像分类任务（CIFAR-10，SVHN，Fashion-MNIST，MNIST）的经验研究，证明了该方法优于最近提出的 BADGE 算法等现有基线。

Sep, 2020

抽象文本摘要的主动学习

本文提出了第一个基于多样性原则的主动学习查询策略来缓解抽象文本摘要中昂贵的注释成本，并分析了自学习的效果。该策略可以帮助提高 ROUGE 和一致性分数。

Jan, 2023

主动学习器的脆弱性

在针对文本分类的活跃学习技术中，选择正确的文本表示、分类器以及评估指标是至关重要的，因为不同的因素可能会导致活跃学习技术的有效性受到限制。

Mar, 2024

自然语言生成的主动学习

本文是第一次系统地研究了主动学习在文本生成方面的应用，研究表明现有的主动学习策略在文本生成场景下效果不佳，无法持续超越随机示例选择的基准线。

May, 2023

ALLSH: 基于本地敏感性和难度引导的主动学习

本文提出了一种通过本地扰动选择数据点，进一步加强数据采集函数的主动学习方法，并在多种分类任务和基于提示的少样本学习的研究中取得了一致的利益和改进，证明了我们的敏感性和硬度引导的数据采集方法对许多 NLP 任务来说是有效和有益的。

May, 2022

使用神经网络实现鲁棒性和可重现的主动学习

本研究旨在证明在相同实验条件下，不同类型的主动学习算法（基于不确定性、多样性和委员会的），与随机采样基准相比，产生的收益不一致，这种性能度量的差异性可能导致结果与以前报告的结果不一致，强正则化下，主动学习方法在各种实验条件下显示出微小或无优势，并提出一套关于如何评估主动学习算法的建议，以确保结果在实验条件变化下具有重复性和稳健性。

Feb, 2020

减少词性标注主动学习中的混淆

这篇论文提出了一种主动学习策略，其中数据筛选算法用于选择有用的训练样本以最小化注释成本，在六种语言中进行了广泛的实验，证明了该策略优于其他主动学习策略，并提出了在特定的输出标签对之间最大程度减少混淆的 AL 问题。

Nov, 2020