本研究提出了一种基于端到端 Transformer 与协同注意力门控视觉 - 语言嵌入的外科手术场景中可定位答案的视觉问答系统,该方法不需要通过检测模型进行特征提取,并建立在数据高效图像 Transformer 模块、并行分类器和检测器之上,该方法在公共手术视频实验上的结果表明了与现有技术的优越性。
Jul, 2023
本研究提出了基于 TextVQA 任务的一种新型空间感知自注意力模型,可以有效地推理图像中的文本内容,改进了 TextVQA 和 ST-VQA 两个关键指标,同时为视觉绑定的研究方向提供了新的思路。
Jul, 2020
本文提出了一种改进的基于注意力机制的架构,其中包括一个对注意力结果和查询进行关系确定的 AoA 模块,并提出了多模态融合模块来组合视觉和文本信息,结果在 VQA-v2 基准数据集上达到了最先进的性能。
Nov, 2020
通过使用数据挖掘和神经网络构建早期和晚期融合的混合模型,我们展示了一种有效的方法,可以提高在大型语料库中连续空间检索的性能
Sep, 2020
本文提出了一个名为 Question Type-guided Attention (QTA) 的方法,利用问题类型信息动态平衡从 ResNet 和 Faster R-CNN 网络中分别提取的自下而上和自上而下的视觉特征。在 TDIUC 数据集上进行了多项输入实验,并显示 QTA 显著提高了多个问题类型类别的性能,例如 “活动识别”、“效用” 和 “计数”。添加 QTA 后,我们在最先进的 MCB 模型上实现了 3%的总体准确度提高。最后,我们提出了一个多任务扩展以预测问题类型,在缺少问题类型的应用程序中推广 QTA,性能损失最小。
Apr, 2018
本文提出了一种基于 Focused Dynamic Attention 模型的视觉问答方法,该方法通过结合全局特征和重点区域信息,能够更好地处理细粒度信息和语言语义,进而提高了视觉问答的表现。
Apr, 2016
本篇研究提出了一种基于注意力机制和深度神经网络的视觉问答方法,通过多模态特征嵌入策略,联合关注自由区域和检测框区域,实现更准确的图像问答。在 COCO-QA 和 VQA 数据集上测试,结果表明该方法优于现有方法。
Nov, 2017
该研究通过比较人类和 VQA 模型在回答与驾驶相关的问题时的注意模式,揭示了观察对象方面的差异。我们提出了一种整合过滤器来优化模型的注意机制的方法,优先考虑相关对象并提高准确性。通过将 LXMERT 模型应用于案例研究,我们比较了预训练模型和整合过滤器模型以及来自 NuImages 数据集的人类答案的注意模式,从而深入了解特征优先级的问题。我们使用一个主观评分框架评估了这些模型,结果显示特征编码器过滤器的整合提高了 VQA 模型的性能,优化了其注意机制。
Jun, 2024
QA-ViT 是一种用于多模态推理的问题感知视觉 Transformer 方法,通过将问题感知能力直接嵌入到视觉编码器中,实现动态视觉特征,并且可以有效地应用于各种多模态架构,提高对视觉和场景文本的理解能力。
Feb, 2024
本研究提出了一种基于跨注意力的信息最大化的方法,结合 CNN-LSTM,并在两个不同分辨率的 VQA 遥感数据集上评估表现,获得了较高的准确率。
Jun, 2023