利用可提取问答变换器构建实际谈话语料库的意图模式
本文提出了意图发现框架,通过自动聚类类似用户话语并手动注释,再通过对未被聚类映射的话语标记意图标签和标记传播,从原始对话中生成意图训练数据,以有效地解决在聊天机器人开发过程中遇到的用户话语分类问题,并验证了该框架的有效性。
May, 2020
本文提出了一种用于大型电子商务平台的意图发现流程改进方法,该方法利用了领域内数据的自我监督和弱监督预训练语言模型,以及利用现实生活数据的对话结构进行微调的最佳方法,并使用所有这些方法结合使用,使真实生活数据的使用比仅使用问题数据的 CDAC 模型效果提高了多达 33pp。
May, 2023
使用 VIM,我们基于无监督和半监督集成流程、深层语言模型引导的并行 k - 近邻图建模法及社区探测技术,探测客户服务对话文本中的目的和主题,支持快速发掘和组织有关用户意图,提高数据分析师的工作效率,进而减少在新领域中构建和部署智能虚拟助手所需的时间和成本。
Feb, 2022
本文提出了一个多阶段的粗到细对比学习模型训练方案,用于联合对比学习和聚类在任务导向的对话中识别意图,该方法在 DSTC11 跟踪 2 评估结果中排名第一。
Mar, 2023
提出了一种基于 Transformer 模型的实时电子商务产品页面问答系统,在 CQA 对中检索到与用户查询相关的问题答案对,该模型学习统一的句法和语义表示,同时利用 CQA 对进行远程监督,通过在离线和在线实验中的大规模评估,证明了该框架在电子商务 QA 流量方面具有很好的性能。
Apr, 2021
提出了一种新的口语会话问答任务(SCQA),旨在使系统能够模拟复杂的对话流程,以便处理音频记录中的对话式问题,并探索从不同模态提供更多线索,通过 DDNet 方法有效地摄取跨模态信息以实现语音和语言模态的细粒度表示,并通过双向关注机制鼓励更好的音频和文本之间的对齐,以简化知识转移过程。通过 Spoken-CoQA 数据集,证明了跨模态信息融合的必要性,同时证明了提出的方法在口语会话问答任务中具有卓越的性能表现。
Apr, 2022
本研究提出了一种新的口头对话问答任务,能够使问答系统对给定的语音话语和文本语料库建模,其中使用了新的统一数据精炼方法 DDNet 直接融合音频文本特征以减少语音识别错误率,同时运用 Spoken-CoQA 数据集评估系统的对话式互动能力,并在实验中取得了优异的性能表现。
Oct, 2020
本文探讨了无监督方法来克服任务导向对话结构设计的基本挑战:为每个对话轮分配意图标签(意图聚类)和生成一组基于意图聚类方法的意图(意图归纳),并且通过比较不同的 clustering 算法和嵌入方法,表明对于意图归纳任务,应当仔细考虑句子嵌入和聚类方法的组合选择,同时 MiniLM 和聚合聚类结构在意图归纳任务中显示出显著的性能提升。
Dec, 2022
本文介绍了我们在 DSTC-10 上构建对话模型的方法。为缩小口头和书面数据之间的差距,我们采用了大量数据扩增策略,包括人工误差注入和文本转语音转换。我们改良了预训练语言模型,并对每个子任务应用了集成算法,以训练稳健的口头对话模型。我们的方法在官方评估中排名第三,在最终的正式人类评估中排名第二。
Mar, 2022
使用 Verint Intent Manager 中的聚类管道,将语言模型的微调和社区检测技术集成在一起,从而提高了数据分析师设计和改进 Intelligent Virtual Assistants 的效率和能力,并在三个真实世界的文本挖掘任务中表现出良好的性能和可扩展性。
Feb, 2022