该研究介绍了两种用于文本分类和标记任务的技术,可以显著减少深度学习中主动学习繁重的计算资源需求,通过伪标签和蒸馏模型实现更高性能的模型训练。
May, 2022
本文研究了主题 “主动学习”,发现尽管在特定模型和特定领域中使用主动学习可能会带来好处,但在不同模型和任务之间泛化当前方法的好处不可靠,并且主动学习的认购数据与指导其获取的模型相结合,与使用独立同分布的(I.I.D)随机样本训练继任模型的方法相比并没有明显的优势,主动学习的局限性是否值得现实中的应用,值得深思。
Jul, 2018
本篇论文就深度主动学习进行了大规模实证研究,针对多种任务和数据集、模型以及获取函数,证实贝叶斯主动学习方法在许多方面都优于传统的不确定性采样方法。
Aug, 2018
本论文提出了一种基于梯度嵌入和预测校准的主动学习方法 Ask-n-Learn,结合数据扩增缓解伪标注期间的确认偏差,通过对基准图像分类任务(CIFAR-10,SVHN,Fashion-MNIST,MNIST)的经验研究,证明了该方法优于最近提出的 BADGE 算法等现有基线。
Sep, 2020
本文提出了第一个基于多样性原则的主动学习查询策略来缓解抽象文本摘要中昂贵的注释成本,并分析了自学习的效果。该策略可以帮助提高 ROUGE 和一致性分数。
Jan, 2023
在针对文本分类的活跃学习技术中,选择正确的文本表示、分类器以及评估指标是至关重要的,因为不同的因素可能会导致活跃学习技术的有效性受到限制。
Mar, 2024
本文是第一次系统地研究了主动学习在文本生成方面的应用,研究表明现有的主动学习策略在文本生成场景下效果不佳,无法持续超越随机示例选择的基准线。
May, 2023
本文提出了一种通过本地扰动选择数据点,进一步加强数据采集函数的主动学习方法,并在多种分类任务和基于提示的少样本学习的研究中取得了一致的利益和改进,证明了我们的敏感性和硬度引导的数据采集方法对许多 NLP 任务来说是有效和有益的。
本研究旨在证明在相同实验条件下,不同类型的主动学习算法(基于不确定性、多样性和委员会的),与随机采样基准相比,产生的收益不一致,这种性能度量的差异性可能导致结果与以前报告的结果不一致,强正则化下,主动学习方法在各种实验条件下显示出微小或无优势,并提出一套关于如何评估主动学习算法的建议,以确保结果在实验条件变化下具有重复性和稳健性。
Feb, 2020
这篇论文提出了一种主动学习策略,其中数据筛选算法用于选择有用的训练样本以最小化注释成本,在六种语言中进行了广泛的实验,证明了该策略优于其他主动学习策略,并提出了在特定的输出标签对之间最大程度减少混淆的 AL 问题。
Nov, 2020