视觉对话的颗粒多模态注意力网络
论文旨在通过提出 Multi-View Attention Network (MVAN) 模型来解决视觉对话任务中的挑战性问题,该模型基于注意机制,利用多个视角来处理异构输入,并且通过序列对齐过程构建多模态表示,从而可以更好地捕捉到对话历史中与问题相关的信息,并在 VisDial v1.0 数据集上达到了最佳结果。
Apr, 2020
本研究提出了一种统一的注意力模型,能够同时捕捉多模态特征的内部和跨模态之间的相互作用,并输出相应的注意力表示。通过堆叠这样的统一注意力块,我们获得了深度多模态统一注意力网络 (MUAN),可以无缝地应用于视觉问答 (VQA) 和视觉定位任务。通过在两个 VQA 数据集和三个视觉定位数据集上评估 MUAN 模型,结果表明 MUAN 在两个任务上都实现了顶级性能。
Aug, 2019
我们介绍了一种新颖的多模式机器翻译模型,利用平行的视觉和文本信息。该模型通过视觉注意力锚定机制链接视觉和文本语义,并实现共享的视觉 - 语言嵌入和翻译器的联合优化,取得了在 Multi30K 和 Ambiguous COCO 数据集上有竞争力的最新结果。我们还收集了一个新的多语言多模态产品描述数据集来模拟真实的国际在线购物场景。在这个数据集上,我们的视觉注意力锚定模型以大幅度优于其他方法的表现脱颖而出。
Aug, 2018
本文将多模态注意力机制应用于图像字幕生成领域,通过在自然语言描述和图像上同时聚焦,实现了一种基于图像字幕的另一种语言描述生成方法,并在 Multi30k 数据集上取得了更好的效果。
Sep, 2016
提出双重关注网络框架(Dual Attention Networks),应用于视觉和文本场景的多模态推理、比对任务,在 Visual Question Answering 和图片 - 文本比对任务中取得最新的优异表现。
Nov, 2016
本文提出了一种新的动态注意力网络架构,用于文本和视觉表示的高效多模态融合,从而实现自然语言指令下机器人对环境的理解和控制,模型通过 LSTM 实现动态关注,基于任务的接地和增强学习控制中取得了良好效果。
Oct, 2019
本文介绍一种新的连续注意力机制,它生成具有高斯混合形式的多模态密度,用于图像区域的聚合。 该方法在视觉问题回答中表现出有竞争力的准确性和自动分离复杂场景中物体和地面的能力,并提供比其他方法更可解释的注意力地图。
Apr, 2021
本文提出了一种称为多模态注意力的方法,可以针对图像特征、运动特征和音频特征进行选择性关注,以促进视频描述的多模态信息融合,并在 Youtube2Text 数据集上取得了竞争状态 - of-the-art 的结果。
Jan, 2017
本研究提出了基于因子图的注意力机制,结合任意数量的数据工具对视觉对话进行建模,提高视觉对话系统的性能表现。实验结果表明,该方法在当前领先技术上提升了 1.1%和 2%的 MRR 分数,并且在 VisDial1.0 上的集成模型提高了超过 6%的 MRR 分数。
Apr, 2019
利用多模式图神经网络(MM-GNN)作为一种视觉问答(VQA)方法,通过将图像表示为由三个子图组成的图形,利用场景文本中的各种信息来提高节点特征,从而显著提高需要阅读场景文本的两项 VQA 任务的性能。
Mar, 2020