多模态对话状态跟踪
本文介绍了一种基于深度学习的可伸缩的多领域对话状态跟踪方法,通过引入一个新的状态跟踪框架,该框架独立于具体的槽值集合,并将对话状态表示为候选值集合的分布,此方法能够快速适应新领域,提高跨领域和可扩展性。
Dec, 2017
本文提出了一种基于神经网络的半监督显式对话状态跟踪器(SEDST),并利用CopyFlowNet表示一个显式的对话状态,并引入后验正则化策略进行间接监督。实验表明,我们的模型在任务导向和非任务导向的对话数据集上均取得了明显的优势。
Aug, 2018
本研究提出一种新的Goal-oriented dialogue systems框架,其中的dialogue state tracker可适用于multiple domains,且不需要特定领域的先验知识,预训练的词嵌入技术有助于提高性能。
Nov, 2018
本文提出了一种基于非自回归框架的对话状态跟踪方法(NADST),能够考虑域和槽之间的潜在依赖关系,优化对话状态预测的完整集合。该方法的非自回归性质不仅可以并行进行解码,大大降低了实时对话响应生成的延迟,而且可以在令牌级别检测槽之间的依赖关系。在MultiWOZ 2.1语料库上,我们的模型在所有领域上的联合精度达到了最先进水平,并且我们的模型的延迟比以前的最新技术低一个数量级,尤其当对话历史随时间推移时。
Feb, 2020
文章提出了一个基于多模态融合和注意力机制的开放域问答系统,用于解决Audio-Video Scene-Aware Dialogue(AVSD)任务,结果表明基于问答假设的数据增广技术和模型均能在DSTC7-AVSD数据集上带来显著的改进。
Jul, 2020
本文提出了Temporally Expressive Networks(TEN)模型以同时模拟对话轮次间的时间特征依赖和状态依赖。利用循环网络和概率图模型,模型对话状态追踪(DST)的准确率得到了提升。
Sep, 2020
本文探讨了利用关系图与relational-GCN图卷积网络构建聊天机器人多域对话跟踪模型的方法,实验结果表明,该方法实现了新的最佳性能,优于使用现有方法提出的深度学习技术的性能。
Oct, 2020
本论文提出了一种多层次融合对话状态跟踪(DST)网络,通过建模每个对话轮次的交互,实现从以往对话历史和当前对话上下文中抽取对话状态信息,进行预测和融合,加强对当前对话状态的跟踪和理解,实验结果表明该模型在MultiWOZ 2.0和MultiWOZ 2.1数据集上取得了当前领先的55.03%和59.07%联合灵敏度值。
Jul, 2021
我们提出了Object Language Video Transformer (OLViT) - 一种新颖的视频对话模型,它在基于多模态注意力的对话状态跟踪器上运行。OLViT通过维护基于对象状态跟踪器 (OST) 和语言状态跟踪器 (LST) 的全局对话状态来解决现有视频对话模型在视频中需要空间和时间定位、长期时间推理和跨多个对话轮次的准确对象跟踪等问题。与之前的工作形成鲜明对比的是,我们的方法和性质是通用的,因此能够学习到最相关的对象和轮次的连续多模态对话状态表示。因此,它们可以无缝地与大型语言模型 (LLM) 集成,并在处理不同数据集和任务时具有高灵活性。在具有挑战性的DVD (响应分类) 和SIMMC 2.1 (响应生成) 数据集上的评估结果显示,OLViT实现了两个数据集上的新的最先进性能。
Feb, 2024