基于多视角注意力网络的视觉对话
本研究提出了一种统一的注意力模型,能够同时捕捉多模态特征的内部和跨模态之间的相互作用,并输出相应的注意力表示。通过堆叠这样的统一注意力块,我们获得了深度多模态统一注意力网络 (MUAN),可以无缝地应用于视觉问答 (VQA) 和视觉定位任务。通过在两个 VQA 数据集和三个视觉定位数据集上评估 MUAN 模型,结果表明 MUAN 在两个任务上都实现了顶级性能。
Aug, 2019
本研究提出了一种新的方法,即颗粒多模态注意力,以解决视觉对话任务时需要关注的正确颗粒度的问题。该方法在图像和文本关注网络中得到了改进,并提出了一种粒度多模态注意力网络,可以同时关注图像和文本颗粒,并展现出最佳的性能。该研究发现,获得颗粒注意力和进行穷尽的多模态注意力似乎是解决视觉对话问题时最好的方法。
Oct, 2019
该论文介绍了一种新的视频场景感知对话系统,该系统将多个研究领域的最新技术整合应用 ,包括端到端的对话技术、视觉问答技术,以及视频描述技术。通过收集一个有关人类行为视频的对话数据集,作者们使用该数据集训练出一种多模态对话模型,它可以在对视频进行讨论时生成响应。最终实验结果表明,使用为多模态注意力视频描述开发的多模态特征可以提高对于动态场景(视频)生成对话的质量。
Jun, 2018
本文提出了一种基于循环神经网络的多步关注机制的多模态联合注意网络(JMAN),用于对视频进行推理,该模型在每个推理过程中联合考虑了视觉和文本表示,以更好地集成两种不同模态的信息。与 AVSD 组织发布的基线相比,我们的模型在 ROUGE-L 得分和 CIDEr 得分上相对提高了 12.1%和 22.4%。
Jan, 2020
本文通过引入 Dual Attention Networks (DAN)模型,提出了一种计算机视觉任务解决方法,用于对话历史和图像特征的信息匹配,通过考虑上下文信息和自我注意力机制的学习,解决了视觉指代消解问题,并在多个数据集上得到了显著的表现提升。
Feb, 2019
本文提出了一种新的基于关联关注记忆的注意力机制,用于解决视觉对话场景下的模糊引用问题,通过在一个新的合成数据集上的实验验证,表明该模型在解决视觉引用问题的重要场景下,比现有技术水平显著提高了 16%;此外,该模型在视觉对话数据集上的表现也优于原有基线模型,而且参数数量明显更少。
Sep, 2017
该研究提出了一种新的模型来从视觉和语义两个角度描述图像,在多角度图像特征的基础上提出了特征选择框架,逐层适应性地捕捉问题相关信息,并在基准视觉对话数据集上取得了最先进的结果。更重要的是,通过可视化门控值,我们能够确定视觉和语义哪个模式在回答当前问题中发挥更重要的作用,为我们理解人类认知在视觉对话中的作用提供了见解。
Nov, 2019
提出双重关注网络框架(Dual Attention Networks),应用于视觉和文本场景的多模态推理、比对任务,在 Visual Question Answering 和图片 - 文本比对任务中取得最新的优异表现。
Nov, 2016
本文提出了一种直观的机制,通过多个阶段融合特征和注意力以很好地集成多模式特征,以解决音频视觉场景感知对话任务,并进一步分析了各种最先进的模型在该任务上的泛化能力。
Aug, 2019
利用多模式图神经网络(MM-GNN)作为一种视觉问答(VQA)方法,通过将图像表示为由三个子图组成的图形,利用场景文本中的各种信息来提高节点特征,从而显著提高需要阅读场景文本的两项 VQA 任务的性能。
Mar, 2020