任务导向接地的动态注意力网络

ICCVOct, 2019

Dynamic Attention Networks for Task Oriented Grounding

Soumik Dasgupta, Badri N. Patro, Vinay P. Namboodiri

TL;DR本文提出了一种新的动态注意力网络架构，用于文本和视觉表示的高效多模态融合，从而实现自然语言指令下机器人对环境的理解和控制，模型通过 LSTM 实现动态关注，基于任务的接地和增强学习控制中取得了良好效果。

Abstract

In order to successfully perform tasks specified by natural language instructions, an artificial agent operating in a visual world needs to map words, concepts, and actions from the instruction to visual elements in its environment. This association is termed as task-oriented grounding

task-oriented grounding dynamic attention network multi-modal fusion policy learner long short term memory

发现论文，激发创造

用于任务导向的语言基础建模的门控注意力架构

提出一种基于端到端可训练神经网络架构，用于在 3D 环境中执行自然语言指令的任务导向语言接地问题，并使用带门控的注意力机制来组合图像和文本表示，并学习执行任务的策略。在一个新的基于 3D 游戏引擎的环境中展示了该模型在未见过的指令和环境下的有效性。

Jun, 2017

视觉对话的颗粒多模态注意力网络

本研究提出了一种新的方法，即颗粒多模态注意力，以解决视觉对话任务时需要关注的正确颗粒度的问题。该方法在图像和文本关注网络中得到了改进，并提出了一种粒度多模态注意力网络，可以同时关注图像和文本颗粒，并展现出最佳的性能。该研究发现，获得颗粒注意力和进行穷尽的多模态注意力似乎是解决视觉对话问题时最好的方法。

Oct, 2019

基于区域特定动态层注意力融合的自主车辆指令落地

该研究旨在探讨如何通过语言理解来实现自动驾驶汽车与人之间的交互，通过对多模态信息的自适应融合，提高语义理解准确度，改进对自然语言命令的视觉场景定位能力。实验结果表明，该模型优于目前现有的技术水平。

Mar, 2022

多模态机器翻译的视觉注意力基础神经模型

我们介绍了一种新颖的多模式机器翻译模型，利用平行的视觉和文本信息。该模型通过视觉注意力锚定机制链接视觉和文本语义，并实现共享的视觉 - 语言嵌入和翻译器的联合优化，取得了在 Multi30K 和 Ambiguous COCO 数据集上有竞争力的最新结果。我们还收集了一个新的多语言多模态产品描述数据集来模拟真实的国际在线购物场景。在这个数据集上，我们的视觉注意力锚定模型以大幅度优于其他方法的表现脱颖而出。

Aug, 2018

基于注意力驱动的约束平衡的视觉定位

本文介绍了一种名为 AttBalance 的新框架，通过优化语言相关区域内的视觉特征行为，以提高视觉定位任务的性能，并在四个不同基准测试上对五种不同模型进行了评估和持续改进，进而在 QRNet 上实现了最新的表现水平。

Jul, 2024

视觉目标检测的注意力网络

基于注意力机制的深度神经网络在物体检测任务中的应用

Feb, 2017

高效深度强化学习的多焦点注意力网络

本文提出了一种多焦点注意力网络 (Multi-focus Attention Network, MANet) 模型，通过模仿人类对低级感官输入进行空间抽象并同时关注它们的能力，将其分割成若干个部分状态后，利用并行的注意力层关注与任务有关的部分状态进行状态值估计；实验证明，MANet 在体验采样数显著减少的情况下取得了最高分，并相比 Deep Q-network 和单一注意力模型表现更好，同时在多智能体合作任务中，我们的模型比现有最先进模型的学习速度提高了 20%。

Dec, 2017

通过学习目标嵌入进行注意力，实现复杂的视觉推理

该文介绍了一种基于神经网络的动态视觉推理问题的更通用方法，通过学习物体中心表示、自我关注和自监督动力学学习，以实现三个不同领域的最先进表现，在每种情况下都优于针对任务特定定制的专用模块化方法。

Dec, 2020

将更多注意力转移至视觉主干：用于端到端视觉定位的查询调制细化网络

本文提出了一种 Query-modulated Refinement Network（QRNet）来处理视觉特征与多模态推理中所需特征的不一致性，包括 Query-aware Dynamic Attention（QD-ATT）机制和多尺度融合。实验表明，该方法在五个广泛使用的数据集上的表现优于现有的最先进方法。

Mar, 2022

视觉和文本问答的动态记忆网络

本文通过分析动态记忆网络并提出多项改进，包括一种新的图像输入模块，实现在缺乏支持事实的情况下回答问题，该新型 DMN + 模型成功应用于视觉问答数据集和文本问答数据集上，且无需支持事实监督。

Mar, 2016