商用智能语音助理领域分类的主动学习
本研究探讨了将口语言语转换为数千种自然语言理解领域之一的任务,提出了一种具有共享编码器、个性化信息的新型注意机制和领域特定分类器的可扩展神经模型架构来有效地解决这个问题。该架构旨在解决实时生产系统中的实际限制,并设计以最小化内存占用和运行时间延迟。本文的研究结果表明,在数千个重叠领域的设置中,结合个性化信息可以显著提高领域分类的准确性。
Apr, 2018
本文提出了一种名为 Majority-CRF 的算法,通过使用分类模型的集成来指导选取相关的话语,以及序列标注模型来帮助优先选择信息量大的示例,进行主动学习,实验结果表明,与随机采样相比,本算法在相同的注释预算下可以实现 6.6%-9%的相对误差率降低,并且与其他主动学习方法相比,取得了显著的改进,此外,在六个新领域进行人机交互的案例研究表明,本文提出的算法在现有的 NLU 系统上取得了 4.6%-9%的改进。
Oct, 2018
本文探讨了在数据稀缺的情况下,将数据增强和主动学习结合用于迁移学习任务的方法,同时研究了不同阶段的问题回答性能和人类标注的影响。实验表明,在引入人类标注的情况下,该方法可以实现在新的、专业领域中的低标注成本的问题回答系统。
Nov, 2022
本文提出基于神经网络的 CoNDA 方法,支持新类别的增量学习,以改进个性化动态信息融入在智能个人数字助手中的领域分类问题,并在现有和增量添加的新领域上实现高准确性和超越对比基准的结果。
May, 2019
借助大语言模型,本文着眼于通过少量标注样本来显著提高模型准确性,从而通过持续的人类反馈循环改进人工智能模型的准确度、回归率和精确度。通过在金融短语库、银行、Craigslist、Trec 和亚马逊评论数据集上的基准测试,证明了即使只有少量标注样本,我们也能超过零样本大语言模型的准确性,提供更好的文本分类性能,而无需手动标记数百万行数据。
Jan, 2024
本研究提出了一种自学习系统,使用用户 - 系统交互反馈信号自动纠正对话式人工智能系统中出现的各种组件错误,并通过吸收马尔可夫链模型挖掘这些反馈信号中的共同模式,进行可扩展的改进,实现了大规模对话式人工智能系统的自主学习,能显著降低过多次错误和缺陷。
Nov, 2019
使用半监督的方法(self-training)从未标记的数据中获取伪标签来改善运用主动学习进行文本分类的效率,通过进行广泛的实验,提出了一种新的有效的 self-training 策略(HAST),并在四个文本分类基准数据集上进行了评估,仅使用 25% 的数据,超过了之前实验的分类结果,达到了与三个数据集的先前实验相当的分类效果。
Jun, 2024
本篇论文介绍了一种基于主动学习的多领域性能提升框架,首先利用初始标记数据对基础模型进行训练,然后迭代地选择最具信息量的样本进行标记,以改进模型性能。该方法在图像分类、情感分析和物体识别等多领域数据集上进行了评估,并表现出超越基准方法,并在几个数据集上取得了最先进的性能。同时表明了本方法非常高效,比其他主动学习方法需要明显较少的标记样本,是一种实用且有效的多领域性能提升解决方案。
Apr, 2023
研究自动化生成的注释建议对诊断推理文本中认识活动分段和分类的可行性和效果,并提供了一个新的数据集。建议具有正面的效果和不引入显著偏见,未来应该结合连续模型调整的方法以提高建议模型的性能。
Jun, 2019