关于 Transformer 中主动学习数据集可迁移性的研究

May, 2023

关于 Transformer 中主动学习数据集可迁移性的研究

On Dataset Transferability in Active Learning for Transformers

Fran Jelenić, Josip Jukić, Nina Drobac, Jan Šnajder

TL;DR本文研究主题为探究主动学习中数据集可迁移性的影响因素，结果表明，使用相似的问询顺序能够获得高度可迁移的数据集，掌握掌握合适的主动学习方法比选择合适的模型更加重要。

Abstract

active learning (AL) aims to reduce labeling costs by querying the examples most beneficial for model learning. While the effectiveness of AL for fine-tuning transformer-based pre-trained language models (PLMs) h

active learning transformer-based pre-trained language models dataset transferability text classification acquisition sequences

发现论文，激发创造

针对基于预训练 Transformer 的多任务主动学习

本文介绍多任务学习和主动学习的结合在 NLP 领域中的应用，提供了一些多任务选择标准，论证了多任务学习的有效性，使得在避免过多的文本标注方面更为高效。

Aug, 2022

关于有效地为主动学习调整预训练语言模型的重要性

本文讨论使用预训练语言模型在自然语言处理中进行主动学习时存在的问题，并提出了使用先前所有的未标注数据来适应目标任务的解决方法，同时也提出了一种简单有效的微调方法来保证适应的语言模型在低资源和高资源情况下都能得到适当的训练，实验结果表明，相比标准的微调方法，我们的方法提供了显著的数据效率改进，这表明一个不良的训练策略可能对主动学习产生灾难性的影响。

Apr, 2021

在低资源情况下使用主动学习进行参数高效语言模型调整

研究调查预训练语言模型在低资源文本分类任务中适配器模块和主要微调之间的相互作用，通过减少标注复杂性的主动学习算法显示出可行性，强调了主动学习与参数高效微调和一致性微调的相互潜力，为高效有效微调的提高打下了基础。

May, 2023

主动学习器的脆弱性

在针对文本分类的活跃学习技术中，选择正确的文本表示、分类器以及评估指标是至关重要的，因为不同的因素可能会导致活跃学习技术的有效性受到限制。

Mar, 2024

法律文本分类的高效主动学习流程

本研究提出了一种在法律领域内使用主动学习与预训练语言模型的管道，其中利用了三个阶段的未标记数据，通过知识蒸馏引导模型的嵌入到一个语义上有意义的空间，并提出了一种简单而有效的策略找到初始的标记样本，实验表明相比传统方法在数据标注成本上更为高效且性能更好。

Nov, 2022

面向可计算的深度主动学习

该研究介绍了两种用于文本分类和标记任务的技术，可以显著减少深度学习中主动学习繁重的计算资源需求，通过伪标签和蒸馏模型实现更高性能的模型训练。

May, 2022

为神经排序模型微调标注数据？当前主动学习策略不如随机选择

本文研究了在有限的训练数据和预算下微调基于预训练语言模型的排序器，发现随机选择不同子集的训练数据进行微调时产生的有效性存在巨大的变化，并探究了主动学习策略在降低标注成本方面的有效性

Sep, 2023

主动二次学习：在序列标注和机器翻译的主动学习方法中主动减少冗余

本文介绍了一种名为 Active² Learning 的主动学习策略，该策略可与多种 AL 策略和 NLP 任务结合使用，并能减少 3-25％的数据要求而无需额外计算开销。

Nov, 2019

在应用主动学习于 Transformer 模型时，要使用 Softmax 还是不使用 Softmax：这是一个问题

本文研究了活性学习的策略及其所用到的模型预测的置信度度量。通过对七个数据集中 8 种排除离群值的策略进行实验，发现大多数方法过于依赖寻找最不确定的样本（离群值），导致只标记离群值反而表现更差，文中提出一种方法对样本进行系统性忽略，在多种方法上相对 softmax 函数获得了更好的效果。

Oct, 2022

使用参数高效迁移学习探索语言模型的越界鲁棒性

本研究系统地探讨了在预训练语言模型（Pre-trained Language Models）规模扩大或转移方法改变时，检测样本分布变化的能力如何随之改变，着重评估了各种 PETL 技术在三个不同意图分类任务上的效果。

Jan, 2023