本文介绍多任务学习和主动学习的结合在 NLP 领域中的应用,提供了一些多任务选择标准,论证了多任务学习的有效性,使得在避免过多的文本标注方面更为高效。
Aug, 2022
本文讨论使用预训练语言模型在自然语言处理中进行主动学习时存在的问题,并提出了使用先前所有的未标注数据来适应目标任务的解决方法,同时也提出了一种简单有效的微调方法来保证适应的语言模型在低资源和高资源情况下都能得到适当的训练,实验结果表明,相比标准的微调方法,我们的方法提供了显著的数据效率改进,这表明一个不良的训练策略可能对主动学习产生灾难性的影响。
Apr, 2021
研究调查预训练语言模型在低资源文本分类任务中适配器模块和主要微调之间的相互作用,通过减少标注复杂性的主动学习算法显示出可行性,强调了主动学习与参数高效微调和一致性微调的相互潜力,为高效有效微调的提高打下了基础。
May, 2023
在针对文本分类的活跃学习技术中,选择正确的文本表示、分类器以及评估指标是至关重要的,因为不同的因素可能会导致活跃学习技术的有效性受到限制。
Mar, 2024
本研究提出了一种在法律领域内使用主动学习与预训练语言模型的管道,其中利用了三个阶段的未标记数据,通过知识蒸馏引导模型的嵌入到一个语义上有意义的空间,并提出了一种简单而有效的策略找到初始的标记样本,实验表明相比传统方法在数据标注成本上更为高效且性能更好。
Nov, 2022
该研究介绍了两种用于文本分类和标记任务的技术,可以显著减少深度学习中主动学习繁重的计算资源需求,通过伪标签和蒸馏模型实现更高性能的模型训练。
May, 2022
本文研究了在有限的训练数据和预算下微调基于预训练语言模型的排序器,发现随机选择不同子集的训练数据进行微调时产生的有效性存在巨大的变化,并探究了主动学习策略在降低标注成本方面的有效性
Sep, 2023
本文介绍了一种名为 Active² Learning 的主动学习策略,该策略可与多种 AL 策略和 NLP 任务结合使用,并能减少 3-25%的数据要求而无需额外计算开销。
Nov, 2019
本文研究了活性学习的策略及其所用到的模型预测的置信度度量。通过对七个数据集中 8 种排除离群值的策略进行实验,发现大多数方法过于依赖寻找最不确定的样本(离群值),导致只标记离群值反而表现更差,文中提出一种方法对样本进行系统性忽略,在多种方法上相对 softmax 函数获得了更好的效果。
Oct, 2022
本研究系统地探讨了在预训练语言模型(Pre-trained Language Models)规模扩大或转移方法改变时,检测样本分布变化的能力如何随之改变,着重评估了各种 PETL 技术在三个不同意图分类任务上的效果。
Jan, 2023