多模态对话状态跟踪
StateNet 是一种通用的对话状态跟踪器,它独立于值的数量,共享所有插槽的参数,并使用预训练的词向量而不是明确的语义字典来解决当前方法在大型对话域上难以扩展的挑战,并且在两个数据集上的实验显示,我们的方法不仅克服了这些限制,而且还显著优于最先进的方法的性能。
Oct, 2018
本研究提出一种新的 Goal-oriented dialogue systems 框架,其中的 dialogue state tracker 可适用于 multiple domains,且不需要特定领域的先验知识,预训练的词嵌入技术有助于提高性能。
Nov, 2018
文章提出了一个基于多模态融合和注意力机制的开放域问答系统,用于解决 Audio-Video Scene-Aware Dialogue(AVSD)任务,结果表明基于问答假设的数据增广技术和模型均能在 DSTC7-AVSD 数据集上带来显著的改进。
Jul, 2020
我们提出了 MST-MIXER - 一种新颖的视频对话模型,该模型在通用的多模态状态跟踪方案上操作。MST-MIXER 通过学习多模态图结构的新方法,通过追踪每个输入模态的最重要成分,预测所选模态的缺失潜在结构,进而构建全局图并优化隐藏状态,从而在五个具有挑战性的基准测试上取得了新的最先进结果。
Jul, 2024
本文介绍了一种基于深度学习的可伸缩的多领域对话状态跟踪方法,通过引入一个新的状态跟踪框架,该框架独立于具体的槽值集合,并将对话状态表示为候选值集合的分布,此方法能够快速适应新领域,提高跨领域和可扩展性。
Dec, 2017
本文提出了一种基于神经网络的半监督显式对话状态跟踪器(SEDST),并利用 CopyFlowNet 表示一个显式的对话状态,并引入后验正则化策略进行间接监督。实验表明,我们的模型在任务导向和非任务导向的对话数据集上均取得了明显的优势。
Aug, 2018
该研究针对对话系统中特定目标和本体的对话状态跟踪模型的可扩展性问题,提出了一种将对话行为融入到对话模型设计中,利用机器阅读理解预测跨域对话状态的方法,并在实验结果中表现出较高的准确度,为未来的面向任务的对话系统提供了对话状态设计的指导。
Aug, 2022
本文介绍了第 8 届对话系统技术挑战赛的 Schema-Guided 对话状态跟踪任务,其目标是开发适用于大型虚拟助手的对话状态跟踪模型,重点是跨域的数据高效联合建模和新 API 的零 - shot 推广。本任务提供了一个包含 16 个领域超过 16000 个对话的数据集,其中包括一个能够零 - shot 推广到新 API 的基线模型。本文介绍了任务定义、数据集和评估方法,并概述了提交系统的方法和结果,以突出现今最先进技术的总体趋势。
Feb, 2020
我们提出了 Object Language Video Transformer (OLViT) - 一种新颖的视频对话模型,它在基于多模态注意力的对话状态跟踪器上运行。OLViT 通过维护基于对象状态跟踪器 (OST) 和语言状态跟踪器 (LST) 的全局对话状态来解决现有视频对话模型在视频中需要空间和时间定位、长期时间推理和跨多个对话轮次的准确对象跟踪等问题。与之前的工作形成鲜明对比的是,我们的方法和性质是通用的,因此能够学习到最相关的对象和轮次的连续多模态对话状态表示。因此,它们可以无缝地与大型语言模型 (LLM) 集成,并在处理不同数据集和任务时具有高灵活性。在具有挑战性的 DVD (响应分类) 和 SIMMC 2.1 (响应生成) 数据集上的评估结果显示,OLViT 实现了两个数据集上的新的最先进性能。
Feb, 2024
本文提出了一种可转移的对话状态生成器 (TRADE),其使用复制机制从话语中生成对话状态,实现了在推断过程中跨领域知识转移。通过零样本和小样本模拟跟踪未见领域,TRADE 实现了 60.58%的联合目标精确度,而不影响已经训练过的领域。
May, 2019