一种自适应深度聚类管道以在规模上通知文本标记
使用 VIM,我们基于无监督和半监督集成流程、深层语言模型引导的并行 k - 近邻图建模法及社区探测技术,探测客户服务对话文本中的目的和主题,支持快速发掘和组织有关用户意图,提高数据分析师的工作效率,进而减少在新领域中构建和部署智能虚拟助手所需的时间和成本。
Feb, 2022
本文提出了一种用于大型电子商务平台的意图发现流程改进方法,该方法利用了领域内数据的自我监督和弱监督预训练语言模型,以及利用现实生活数据的对话结构进行微调的最佳方法,并使用所有这些方法结合使用,使真实生活数据的使用比仅使用问题数据的 CDAC 模型效果提高了多达 33pp。
May, 2023
本文介绍了一种基于云的系统,使用机器学习方法集成到管道中,能够从客户评论中提取洞察力,其复合模型使用基于 transformer 的神经网络、基于向量嵌入的关键字提取和聚类,可以更好地满足高效信息提取、提取信息的主题建模和用户需求的要求,并且比现有的主题建模和关键字提取解决方案取得更好的结果。该方法使用公开可用的数据集进行基准测试,并与其他最先进的方法进行验证和比较。
Jun, 2023
本文提出了意图发现框架,通过自动聚类类似用户话语并手动注释,再通过对未被聚类映射的话语标记意图标签和标记传播,从原始对话中生成意图训练数据,以有效地解决在聊天机器人开发过程中遇到的用户话语分类问题,并验证了该框架的有效性。
May, 2020
本研究提出了一种无监督的自动化 pipeline,基于问答模型和聚类方法,能够从真实的对话数据中抽取意图并建立意图分组分类体系,验证结果表明该方法能够解决自然语言理解中的意图识别问题,实现了超过 85% 的区分准确度。
Aug, 2022
本论文提出了一种基于聚类的框架 --MNID(多新意图检测),用于检测多个新出现的新意图,在人力预算有限的情况下更高效地重训练基础分类器,实验结果表明 MNID 在准确性和 F1 分数上优于基线方法。
May, 2022
本文提出了一种新颖的跨模态深度学习方法,用于处理基于应用程序屏幕像素的实例级用户意图,同时在没有应用程序元数据的情况下预测目标操作区域和检测屏幕上的绝对按钮区域,并通过用户研究测试集上达到了 64.43% 的准确率。
Jun, 2023
研究介绍了一个基于学生 - 教师框架的半监督学习 (SSl) 生产管道,利用数百万未标记的示例来改善自然语言理解 (NLU) 任务,并调查了两个与未标记数据在生产 SSL 环境中的使用相关的问题:1)如何选择从大量未标记数据池中受益于 SSL 培训的样本,2)选定数据如何影响不同的最先进的 SSL 技术的性能。结合委员会选择和子模块优化选择两种数据选择方法,比较了四种广泛使用的 SSL 技术,包括伪标签 (PL)、知识蒸馏 (KD)、虚拟对抗训练 (VAT) 和交叉视图训练 (CVT)。我们进一步探讨了这些技术在意向分类 (IC) 和命名实体识别 (NER) 任务中的优缺点,并提供了指导方针,指定每种方法何时可能有益于改善大规模 NLU 系统。
Mar, 2021
这项研究提出了一种基于语言模型和点间 V-information 的方法,通过 in-context 合成新的对话数据并过滤无用数据,能够在少量训练数据下,显著提升意图检测性能。
Feb, 2023
本文介绍了一种用于自动数据选择和标记的 NNSI 算法,该算法通过集成分类器从语义上相似的文本样本组的输出,自动选择高度模糊的样本并以高精度标记它们。我们在两个大型语音会话系统上演示了 NNSI 的使用,并评估了结果,证明了该方法能够选择并标记高质量的有用样本,加入训练数据集可使分类器的准确性显著提高并将误差率降低高达 10%。
Feb, 2022