自然语言处理中主动学习的调查
本文评估最近采用神经网络的主动学习策略在文本分类中的性能与缺陷,并探讨了训练小数据集的深度神经网络 (DNN) 对于实现有效的主动学习的重要性,并为当前研究中存在的差距提出了几个研究问题。
Aug, 2020
本篇论文就深度主动学习进行了大规模实证研究,针对多种任务和数据集、模型以及获取函数,证实贝叶斯主动学习方法在许多方面都优于传统的不确定性采样方法。
Aug, 2018
使用大型语言模型(GPT-3.5 和 GPT-4)进行标注,研究了主动学习中减少标注成本和采样效率的方法。采用混合注释策略,将可能标注错误的样本与人工注释相结合,可以在 AG 新闻和腐烂的番茄等数据集上取得与人工注释相似甚至更好的结果,证明了大型语言模型在主动学习中的准确性和成本效益。
Jan, 2024
使用可复现的主动学习评估框架来比较评估自然语言处理中的主动学习策略,并通过定义和跟踪实验参数,帮助实践者作出更明智的决策,同时帮助研究者开发出新的高效主动学习策略和制定最佳实践,从而降低注释成本。
Aug, 2023
本文提出了一种名为 Majority-CRF 的算法,通过使用分类模型的集成来指导选取相关的话语,以及序列标注模型来帮助优先选择信息量大的示例,进行主动学习,实验结果表明,与随机采样相比,本算法在相同的注释预算下可以实现 6.6%-9%的相对误差率降低,并且与其他主动学习方法相比,取得了显著的改进,此外,在六个新领域进行人机交互的案例研究表明,本文提出的算法在现有的 NLU 系统上取得了 4.6%-9%的改进。
Oct, 2018
主动学习是一种在人工智能时代之前就存在的机器学习算法家族,与传统方法相比,利用未标记的样本通过专家的标注来优先选择最具信息量的样本,从而提高模型性能。本文介绍了主动学习的理论,涵盖不同领域的最新进展,并探讨了主动学习与量子机器学习的潜力。
Jul, 2023
本研究提出了一种在法律领域内使用主动学习与预训练语言模型的管道,其中利用了三个阶段的未标记数据,通过知识蒸馏引导模型的嵌入到一个语义上有意义的空间,并提出了一种简单而有效的策略找到初始的标记样本,实验表明相比传统方法在数据标注成本上更为高效且性能更好。
Nov, 2022
深度学习主导的主动学习方法的调查;介绍了 DAL 任务,总结了最重要的基准和常用的数据集;系统地提供了 DAL 方法的分类,包括注释类型、查询策略、深度模型架构、学习范式和训练过程,并客观分析它们的优点和缺点;全面总结了 DAL 在自然语言处理、计算机视觉和数据挖掘等领域的主要应用;在对当前研究进行详细分析后,讨论了挑战和展望。
May, 2024