一种自适应深度聚类管道以在规模上通知文本标记

ICMLFeb, 2022

一种自适应深度聚类管道以在规模上通知文本标记

An Adaptive Deep Clustering Pipeline to Inform Text Labeling at Scale

Xinyu Chen, Ian Beaver

TL;DR使用 Verint Intent Manager 中的聚类管道，将语言模型的微调和社区检测技术集成在一起，从而提高了数据分析师设计和改进 Intelligent Virtual Assistants 的效率和能力，并在三个真实世界的文本挖掘任务中表现出良好的性能和可扩展性。

Abstract

Mining the latent intentions from large volumes of natural language inputs is a key step to help data analysts design and refine Intelligent Virtual Assistants (IVAs) for customer service and sales support. We created a flexible and scalable clustering pipeline within the →

intelligent virtual assistants verint intent manager language models clustering pipeline text mining

发现论文，激发创造

基于半监督深层聚类的文本意图挖掘管道

使用 VIM，我们基于无监督和半监督集成流程、深层语言模型引导的并行 k - 近邻图建模法及社区探测技术，探测客户服务对话文本中的目的和主题，支持快速发掘和组织有关用户意图，提高数据分析师的工作效率，进而减少在新领域中构建和部署智能虚拟助手所需的时间和成本。

Feb, 2022

超越研究数据集：工业场景下的新意图发现

本文提出了一种用于大型电子商务平台的意图发现流程改进方法，该方法利用了领域内数据的自我监督和弱监督预训练语言模型，以及利用现实生活数据的对话结构进行微调的最佳方法，并使用所有这些方法结合使用，使真实生活数据的使用比仅使用问题数据的 CDAC 模型效果提高了多达 33pp。

May, 2023

一种基于云端的机器学习流水线，用于高效地从客户评论中提取洞察信息

本文介绍了一种基于云的系统，使用机器学习方法集成到管道中，能够从客户评论中提取洞察力，其复合模型使用基于 transformer 的神经网络、基于向量嵌入的关键字提取和聚类，可以更好地满足高效信息提取、提取信息的主题建模和用户需求的要求，并且比现有的主题建模和关键字提取解决方案取得更好的结果。该方法使用公开可用的数据集进行基准测试，并与其他最先进的方法进行验证和比较。

Jun, 2023

从过去的对话中挖掘意图信息以供会话代理使用

本文提出了意图发现框架，通过自动聚类类似用户话语并手动注释，再通过对未被聚类映射的话语标记意图标签和标记传播，从原始对话中生成意图训练数据，以有效地解决在聊天机器人开发过程中遇到的用户话语分类问题，并验证了该框架的有效性。

May, 2020

利用可提取问答变换器构建实际谈话语料库的意图模式

本研究提出了一种无监督的自动化 pipeline，基于问答模型和聚类方法，能够从真实的对话数据中抽取意图并建立意图分组分类体系，验证结果表明该方法能够解决自然语言理解中的意图识别问题，实现了超过 85% 的区分准确度。

Aug, 2022

生成多个新意图检测的高质量数据点的框架

本论文提出了一种基于聚类的框架 --MNID（多新意图检测），用于检测多个新出现的新意图，在人力预算有限的情况下更高效地重训练基础分类器，实验结果表明 MNID 在准确性和 F1 分数上优于基线方法。

May, 2022

增强虚拟助手智能力：针对元数据以外的实例级用户意图的精准区域定位

本文提出了一种新颖的跨模态深度学习方法，用于处理基于应用程序屏幕像素的实例级用户意图，同时在没有应用程序元数据的情况下预测目标操作区域和检测屏幕上的绝对按钮区域，并通过用户研究测试集上达到了 64.43% 的准确率。

Jun, 2023

行业级别自然语言理解半监督学习

研究介绍了一个基于学生 - 教师框架的半监督学习 (SSl) 生产管道，利用数百万未标记的示例来改善自然语言理解 (NLU) 任务，并调查了两个与未标记数据在生产 SSL 环境中的使用相关的问题：1）如何选择从大量未标记数据池中受益于 SSL 培训的样本，2）选定数据如何影响不同的最先进的 SSL 技术的性能。结合委员会选择和子模块优化选择两种数据选择方法，比较了四种广泛使用的 SSL 技术，包括伪标签 (PL)、知识蒸馏 (KD)、虚拟对抗训练 (VAT) 和交叉视图训练 (CVT)。我们进一步探讨了这些技术在意向分类 (IC) 和命名实体识别 (NER) 任务中的优缺点，并提供了指导方针，指定每种方法何时可能有益于改善大规模 NLU 系统。

Mar, 2021

使用点对点 V - 信息对上下文选定进行的意图检测的有选择性数据增强

这项研究提出了一种基于语言模型和点间 V-information 的方法，通过 in-context 合成新的对话数据并过滤无用数据，能够在少量训练数据下，显著提升意图检测性能。

Feb, 2023

一种增强意图分类的新数据增强方法及其在口语对话数据集上的应用

本文介绍了一种用于自动数据选择和标记的 NNSI 算法，该算法通过集成分类器从语义上相似的文本样本组的输出，自动选择高度模糊的样本并以高精度标记它们。我们在两个大型语音会话系统上演示了 NNSI 的使用，并评估了结果，证明了该方法能够选择并标记高质量的有用样本，加入训练数据集可使分类器的准确性显著提高并将误差率降低高达 10%。

Feb, 2022