商用智能语音助理领域分类的主动学习

Aug, 2019

商用智能语音助理领域分类的主动学习

Active Learning for Domain Classification in a Commercial Spoken Personal Assistant

Xi C. Chen, Adithya Sagar, Justine T. Kao, Tony Y. Li, Christopher Klein...

TL;DR本研究介绍了一种基于 LSTM 域选择组件的人工智能助理系统中对于选择相关新训练数据的方法，实验结果表明，与随机选择和基于熵的方法相比，在固定标注预算的情况下提供了更高的准确性提升。

Abstract

We describe a method for selecting relevant new training data for the lstm-based domain selection component of our personal assistant system. Adding more →

lstm-based domain selection personal assistant system ml system annotated training data new helpful examples

发现论文，激发创造

具有个性化注意力的高效大规模域分类

本研究探讨了将口语言语转换为数千种自然语言理解领域之一的任务，提出了一种具有共享编码器、个性化信息的新型注意机制和领域特定分类器的可扩展神经模型架构来有效地解决这个问题。该架构旨在解决实时生产系统中的实际限制，并设计以最小化内存占用和运行时间延迟。本文的研究结果表明，在数千个重叠领域的设置中，结合个性化信息可以显著提高领域分类的准确性。

Apr, 2018

自然语言理解中新领域的主动学习

本文提出了一种名为 Majority-CRF 的算法，通过使用分类模型的集成来指导选取相关的话语，以及序列标注模型来帮助优先选择信息量大的示例，进行主动学习，实验结果表明，与随机采样相比，本算法在相同的注释预算下可以实现 6.6％-9％的相对误差率降低，并且与其他主动学习方法相比，取得了显著的改进，此外，在六个新领域进行人机交互的案例研究表明，本文提出的算法在现有的 NLU 系统上取得了 4.6％-9％的改进。

Oct, 2018

多阶段主动学习提高低资源问答能力

本文探讨了在数据稀缺的情况下，将数据增强和主动学习结合用于迁移学习任务的方法，同时研究了不同阶段的问题回答性能和人类标注的影响。实验表明，在引入人类标注的情况下，该方法可以实现在新的、专业领域中的低标注成本的问题回答系统。

Nov, 2022

大规模个性化领域分类的持续学习

本文提出基于神经网络的 CoNDA 方法，支持新类别的增量学习，以改进个性化动态信息融入在智能个人数字助手中的领域分类问题，并在现有和增量添加的新领域上实现高准确性和超越对比基准的结果。

May, 2019

通过人类反馈提高分类性能：标注一部分，剩下的我们来标注

借助大语言模型，本文着眼于通过少量标注样本来显著提高模型准确性，从而通过持续的人类反馈循环改进人工智能模型的准确度、回归率和精确度。通过在金融短语库、银行、Craigslist、Trec 和亚马逊评论数据集上的基准测试，证明了即使只有少量标注样本，我们也能超过零样本大语言模型的准确性，提供更好的文本分类性能，而无需手动标记数百万行数据。

Jan, 2024

自然语言任务中的多域主动学习

该研究对带有多个数据来源的领域转移进行了详尽的调查，发现了一些有效的方法并提出了一种新的有效方法 DAL-E，并探讨了选定的示例和域具有的特性。

Feb, 2022

大规模会话型 AI 代理的基于反馈的自学习

本研究提出了一种自学习系统，使用用户 - 系统交互反馈信号自动纠正对话式人工智能系统中出现的各种组件错误，并通过吸收马尔可夫链模型挖掘这些反馈信号中的共同模式，进行可扩展的改进，实现了大规模对话式人工智能系统的自主学习，能显著降低过多次错误和缺陷。

Nov, 2019

基于预训练语言模型的样本高效主动学习自训练

使用半监督的方法（self-training）从未标记的数据中获取伪标签来改善运用主动学习进行文本分类的效率，通过进行广泛的实验，提出了一种新的有效的 self-training 策略（HAST），并在四个文本分类基准数据集上进行了评估，仅使用 25% 的数据，超过了之前实验的分类结果，达到了与三个数据集的先前实验相当的分类效果。

Jun, 2024

利用基于主动学习的改进策略优化多域性能

本篇论文介绍了一种基于主动学习的多领域性能提升框架，首先利用初始标记数据对基础模型进行训练，然后迭代地选择最具信息量的样本进行标记，以改进模型性能。该方法在图像分类、情感分析和物体识别等多领域数据集上进行了评估，并表现出超越基准方法，并在几个数据集上取得了最先进的性能。同时表明了本方法非常高效，比其他主动学习方法需要明显较少的标记样本，是一种实用且有效的多领域性能提升解决方案。

Apr, 2023

专家领域困难语篇级任务自动标注建议分析

研究自动化生成的注释建议对诊断推理文本中认识活动分段和分类的可行性和效果，并提供了一个新的数据集。建议具有正面的效果和不引入显著偏见，未来应该结合连续模型调整的方法以提高建议模型的性能。

Jun, 2019