本文介绍了活跃学习在自然语言处理中的应用,并对查询策略、结构化预测任务、注释成本、模型学习和活跃学习的起止等关键问题进行了探讨。结论部分对相关主题和未来方向进行了讨论。
Oct, 2022
在文本分类任务中,我们提出了一种新的基于卷积神经网络(CNNs)的主动学习方法。我们的方法侧重于选择具有最大影响的实例,以快速学习区分性的任务特定嵌入,并得出良好的实验结果,是首次在使用神经模型进行文本分类的主动学习方面的工作。
Jun, 2016
本文是第一次系统地研究了主动学习在文本生成方面的应用,研究表明现有的主动学习策略在文本生成场景下效果不佳,无法持续超越随机示例选择的基准线。
May, 2023
本篇论文就深度主动学习进行了大规模实证研究,针对多种任务和数据集、模型以及获取函数,证实贝叶斯主动学习方法在许多方面都优于传统的不确定性采样方法。
Aug, 2018
本研究提出了一种基于神经网络解释能力的主动学习方法 ALDEN,该方法可根据样本的多样性解释性选择样本并查询其标签,使得高质量模型的训练成为可能。实验证明,ALDEN 在文本分类问题上比其他主动学习方法表现更好。
Aug, 2021
这篇文章探讨了深度主动学习的现状和未来发展方向,介绍了目前现有的挖掘数据特征的多种方法,并且对 “深度主动学习” 进行了定义和系统梳理。
Aug, 2020
本文提出一种新的主动学习算法,将 CNN 模型的输出从 softmax 替换为 Dirichlet 值,实现从未标记数据中提取最具信息量的标记数据集,该方法在多项数据集和医学图像识别领域中与其他主动学习方法相比均具有更高的性能表现和易于实现且不需要大量计算资源的优点。
Jul, 2020
本文分析了深度学习在自然语言处理三个核心任务(文本表示、词序建模和知识表示)中的应用现状,探讨了在文本分类背景下自然语言处理所取得的改进和协同效应,同时考虑了文本生成、文本分类和语义解析中对抗技术所带来的挑战,通过对文本分类任务的经验研究,证明了交互式集成训练的有效性,特别是与 TextCNN 结合,凸显了这些进展对文本分类增强的重要性。
Mar, 2024
使用大型语言模型(GPT-3.5 和 GPT-4)进行标注,研究了主动学习中减少标注成本和采样效率的方法。采用混合注释策略,将可能标注错误的样本与人工注释相结合,可以在 AG 新闻和腐烂的番茄等数据集上取得与人工注释相似甚至更好的结果,证明了大型语言模型在主动学习中的准确性和成本效益。
Jan, 2024
将计算技术与人文学科相结合是一项不断努力的工作,旨在使文本、图像、音频、视频和其他人工制品等资源能够以数字化形式进行存储、检索和分析。本文分析最近文献中多种人文学科研究的使用案例,探讨了人文学科研究中采用深度学习方法面临的训练数据和领域适应性方面的挑战,并提出了实用的决策模型,以指导人文学科专家在何时以及如何选择合适的深度学习方法进行研究。此外,本文旨在提高人文学科社区对于利用深度学习模型的收益的认知。
Jul, 2023