利用可提取问答变换器构建实际谈话语料库的意图模式

Aug, 2022

利用可提取问答变换器构建实际谈话语料库的意图模式

Building the Intent Landscape of Real-World Conversational Corpora with Extractive Question-Answering Transformers

Jean-Philippe Corbeil, Mia Taige Li, Hadi Abdi Ghavidel

TL;DR本研究提出了一种无监督的自动化 pipeline，基于问答模型和聚类方法，能够从真实的对话数据中抽取意图并建立意图分组分类体系，验证结果表明该方法能够解决自然语言理解中的意图识别问题，实现了超过 85% 的区分准确度。

Abstract

For companies with customer service, mapping intents inside their conversational data is crucial in building applications based on natural language understanding (NLU). Nevertheless, there is no established automated technique to gather the intents from noisy online chats or voice transcripts. Simple →

natural language understanding intent extraction unsupervised learning clustering dialogues

发现论文，激发创造

从过去的对话中挖掘意图信息以供会话代理使用

本文提出了意图发现框架，通过自动聚类类似用户话语并手动注释，再通过对未被聚类映射的话语标记意图标签和标记传播，从原始对话中生成意图训练数据，以有效地解决在聊天机器人开发过程中遇到的用户话语分类问题，并验证了该框架的有效性。

May, 2020

超越研究数据集：工业场景下的新意图发现

本文提出了一种用于大型电子商务平台的意图发现流程改进方法，该方法利用了领域内数据的自我监督和弱监督预训练语言模型，以及利用现实生活数据的对话结构进行微调的最佳方法，并使用所有这些方法结合使用，使真实生活数据的使用比仅使用问题数据的 CDAC 模型效果提高了多达 33pp。

May, 2023

基于半监督深层聚类的文本意图挖掘管道

使用 VIM，我们基于无监督和半监督集成流程、深层语言模型引导的并行 k - 近邻图建模法及社区探测技术，探测客户服务对话文本中的目的和主题，支持快速发掘和组织有关用户意图，提高数据分析师的工作效率，进而减少在新领域中构建和部署智能虚拟助手所需的时间和成本。

Feb, 2022

基于多阶段粗 - 细对比学习的对话意图识别

本文提出了一个多阶段的粗到细对比学习模型训练方案，用于联合对比学习和聚类在任务导向的对话中识别意图，该方法在 DSTC11 跟踪 2 评估结果中排名第一。

Mar, 2023

基于远程监督的 Transformer 模型在电商产品问答中的应用

提出了一种基于 Transformer 模型的实时电子商务产品页面问答系统，在 CQA 对中检索到与用户查询相关的问题答案对，该模型学习统一的句法和语义表示，同时利用 CQA 对进行远程监督，通过在离线和在线实验中的大规模评估，证明了该框架在电子商务 QA 流量方面具有很好的性能。

Apr, 2021

端到端口语对话问答：任务，数据集和模型

提出了一种新的口语会话问答任务（SCQA），旨在使系统能够模拟复杂的对话流程，以便处理音频记录中的对话式问题，并探索从不同模态提供更多线索，通过 DDNet 方法有效地摄取跨模态信息以实现语音和语言模态的细粒度表示，并通过双向关注机制鼓励更好的音频和文本之间的对齐，以简化知识转移过程。通过 Spoken-CoQA 数据集，证明了跨模态信息融合的必要性，同时证明了提出的方法在口语会话问答任务中具有卓越的性能表现。

Apr, 2022

面向端到端口语问答的数据蒸馏技术

本研究提出了一种新的口头对话问答任务，能够使问答系统对给定的语音话语和文本语料库建模，其中使用了新的统一数据精炼方法 DDNet 直接融合音频文本特征以减少语音识别错误率，同时运用 Spoken-CoQA 数据集评估系统的对话式互动能力，并在实验中取得了优异的性能表现。

Oct, 2020

针对任务导向对话的意图归纳相关话语嵌入和聚类方法分析

本文探讨了无监督方法来克服任务导向对话结构设计的基本挑战：为每个对话轮分配意图标签（意图聚类）和生成一组基于意图聚类方法的意图（意图归纳），并且通过比较不同的 clustering 算法和嵌入方法，表明对于意图归纳任务，应当仔细考虑句子嵌入和聚类方法的组合选择，同时 MiniLM 和聚合聚类结构在意图归纳任务中显示出显著的性能提升。

Dec, 2022

面向口语对话的任务导向对话建模的通用模型

本文介绍了我们在 DSTC-10 上构建对话模型的方法。为缩小口头和书面数据之间的差距，我们采用了大量数据扩增策略，包括人工误差注入和文本转语音转换。我们改良了预训练语言模型，并对每个子任务应用了集成算法，以训练稳健的口头对话模型。我们的方法在官方评估中排名第三，在最终的正式人类评估中排名第二。

Mar, 2022

一种自适应深度聚类管道以在规模上通知文本标记

使用 Verint Intent Manager 中的聚类管道，将语言模型的微调和社区检测技术集成在一起，从而提高了数据分析师设计和改进 Intelligent Virtual Assistants 的效率和能力，并在三个真实世界的文本挖掘任务中表现出良好的性能和可扩展性。

Feb, 2022