抗干扰型视觉问答的无干扰嵌入

Aug, 2023

Distraction-free Embeddings for Robust VQA

Atharvan Dogra, Deeksha Varshney, Ashwin Kalyan, Ameet Deshpande, Neeraj Kumar

TL;DR利用 DRAX 方法进行异质嵌入的去干扰和注意力引导，以提高视觉 - 语言理解任务的效果，经过大量实验证明了该方法在多种方面的能力

Abstract

The generation of effective latent representations and their subsequent refinement to incorporate precise information is an essential prerequisite for vision-language understanding (VLU) tasks such as video question ans

vision-language understanding video question answering drax distractor removal latent embeddings

发现论文，激发创造

视觉问答机器人手术中采用共同关注门控视觉语言嵌入的本地化回答

本研究提出了一种基于端到端 Transformer 与协同注意力门控视觉 - 语言嵌入的外科手术场景中可定位答案的视觉问答系统，该方法不需要通过检测模型进行特征提取，并建立在数据高效图像 Transformer 模块、并行分类器和检测器之上，该方法在公共手术视频实验上的结果表明了与现有技术的优越性。

Jul, 2023

面向 TextVQA 的空间感知多模态 Transformer

本研究提出了基于 TextVQA 任务的一种新型空间感知自注意力模型，可以有效地推理图像中的文本内容，改进了 TextVQA 和 ST-VQA 两个关键指标，同时为视觉绑定的研究方向提供了新的思路。

Jul, 2020

改进的视觉问答注意力机制

本文提出了一种改进的基于注意力机制的架构，其中包括一个对注意力结果和查询进行关系确定的 AoA 模块，并提出了多模态融合模块来组合视觉和文本信息，结果在 VQA-v2 基准数据集上达到了最先进的性能。

Nov, 2020

交叉注意力监督数据增强在问答神经检索中的应用

通过使用数据挖掘和神经网络构建早期和晚期融合的混合模型，我们展示了一种有效的方法，可以提高在大型语料库中连续空间检索的性能

Sep, 2020

视觉问答中的问题类型引导注意力机制

本文提出了一个名为 Question Type-guided Attention (QTA) 的方法，利用问题类型信息动态平衡从 ResNet 和 Faster R-CNN 网络中分别提取的自下而上和自上而下的视觉特征。在 TDIUC 数据集上进行了多项输入实验，并显示 QTA 显著提高了多个问题类型类别的性能，例如 “活动识别”、“效用” 和 “计数”。添加 QTA 后，我们在最先进的 MCB 模型上实现了 3％的总体准确度提高。最后，我们提出了一个多任务扩展以预测问题类型，在缺少问题类型的应用程序中推广 QTA，性能损失最小。

Apr, 2018

面向视觉问答的聚焦动态注意力模型

本文提出了一种基于 Focused Dynamic Attention 模型的视觉问答方法，该方法通过结合全局特征和重点区域信息，能够更好地处理细粒度信息和语言语义，进而提高了视觉问答的表现。

Apr, 2016

多模态乘积特征嵌入共同关注自由形式区域和检测用于视觉问答

本篇研究提出了一种基于注意力机制和深度神经网络的视觉问答方法，通过多模态特征嵌入策略，联合关注自由区域和检测框区域，实现更准确的图像问答。在 COCO-QA 和 VQA 数据集上测试，结果表明该方法优于现有方法。

Nov, 2017

优化驾驶视觉问答模型：弥合人类与机器注意力模式的差距

该研究通过比较人类和 VQA 模型在回答与驾驶相关的问题时的注意模式，揭示了观察对象方面的差异。我们提出了一种整合过滤器来优化模型的注意机制的方法，优先考虑相关对象并提高准确性。通过将 LXMERT 模型应用于案例研究，我们比较了预训练模型和整合过滤器模型以及来自 NuImages 数据集的人类答案的注意模式，从而深入了解特征优先级的问题。我们使用一个主观评分框架评估了这些模型，结果显示特征编码器过滤器的整合提高了 VQA 模型的性能，优化了其注意机制。

Jun, 2024

问题感知视觉变换器用于多模态推理

QA-ViT 是一种用于多模态推理的问题感知视觉 Transformer 方法，通过将问题感知能力直接嵌入到视觉编码器中，实现动态视觉特征，并且可以有效地应用于各种多模态架构，提高对视觉和场景文本的理解能力。

Feb, 2024

远程感知中的视觉问答：跨注意力与多模态信息瓶颈

本研究提出了一种基于跨注意力的信息最大化的方法，结合 CNN-LSTM，并在两个不同分辨率的 VQA 遥感数据集上评估表现，获得了较高的准确率。

Jun, 2023