自然语言理解中新领域的主动学习

ACLOct, 2018

自然语言理解中新领域的主动学习

Active Learning for New Domains in Natural Language Understanding

Stanislav Peshterliev, John Kearney, Abhyuday Jagannatha, Imre Kiss, Spyros Matsoukas

TL;DR本文提出了一种名为 Majority-CRF 的算法，通过使用分类模型的集成来指导选取相关的话语，以及序列标注模型来帮助优先选择信息量大的示例，进行主动学习，实验结果表明，与随机采样相比，本算法在相同的注释预算下可以实现 6.6％-9％的相对误差率降低，并且与其他主动学习方法相比，取得了显著的改进，此外，在六个新领域进行人机交互的案例研究表明，本文提出的算法在现有的 NLU 系统上取得了 4.6％-9％的改进。

Abstract

We explore active learning (AL) for improving the accuracy of new domains in a natural language understanding (NLU) system. We propose an algorithm called Majority-CRF that uses an →

active learning natural language understanding ensemble of classification models sequence labeling model human-in-the-loop al

发现论文，激发创造

自然语言任务中的多域主动学习

该研究对带有多个数据来源的领域转移进行了详尽的调查，发现了一些有效的方法并提出了一种新的有效方法 DAL-E，并探讨了选定的示例和域具有的特性。

Feb, 2022

自然语言处理中主动学习的调查

本文介绍了活跃学习在自然语言处理中的应用，并对查询策略、结构化预测任务、注释成本、模型学习和活跃学习的起止等关键问题进行了探讨。结论部分对相关主题和未来方向进行了讨论。

Oct, 2022

商用智能语音助理领域分类的主动学习

本研究介绍了一种基于 LSTM 域选择组件的人工智能助理系统中对于选择相关新训练数据的方法，实验结果表明，与随机选择和基于熵的方法相比，在固定标注预算的情况下提供了更高的准确性提升。

Aug, 2019

自然语言生成的主动学习

本文是第一次系统地研究了主动学习在文本生成方面的应用，研究表明现有的主动学习策略在文本生成场景下效果不佳，无法持续超越随机示例选择的基准线。

May, 2023

复合主动学习：具备理论保证的多域主动学习

该研究提出了一种名为复合主动学习（CAL）的通用方法，用于多领域主动学习（AL）中，以解决忽略不同领域之间相似性以及处理不同领域之间数据分布变化的问题，并在理论和实证结果上显示出优于现有方法的性能。

Feb, 2024

走向可比较的主动学习

提供了一种公平比较不同任务和领域中算法的主动学习框架，并提出了一种快速有效的评估算法。汇总了在 3 个主要领域（表格、图像和文本）上使用的 6 种广泛应用的算法在 7 个实际数据集和 2 个合成数据集上的实证结果，并形成了领域特定的主动学习算法排名。

Nov, 2023

FreeAL：大语言模型时代的无人主动学习

在大型语言模型时代，我们提出了创新的协作学习框架 FreeAL，通过与 LLMs 交互式提取和过滤任务特定知识，显著提高了 SLM 和 LLM 的零样本性能，无需人工监督。

Nov, 2023

ALICE: 用对比自然语言解释的主动学习

提出了一种专家循环训练框架 ALICE，它利用对比的自然语言解释来提高学习的数据效率，通过提取和动态更改学习模型的结构来应用于鸟类物种分类和社会关系分类两个视觉识别任务中，验证结果表明，相较于使用 40-100% 更多的训练数据的基线模型，应用对比解释后的模型效果更加出色，而添加一个解释获得的性能增益与添加 13-30 个标记训练数据点的性能增益相当。

Sep, 2020

自然语言处理的深度贝叶斯主动学习：一项大规模实证研究结果

本篇论文就深度主动学习进行了大规模实证研究，针对多种任务和数据集、模型以及获取函数，证实贝叶斯主动学习方法在许多方面都优于传统的不确定性采样方法。

Aug, 2018

使用深度神经网络进行文本分类的主动学习调查

本文评估最近采用神经网络的主动学习策略在文本分类中的性能与缺陷，并探讨了训练小数据集的深度神经网络 (DNN) 对于实现有效的主动学习的重要性，并为当前研究中存在的差距提出了几个研究问题。

Aug, 2020