vqa | BriefGPT - AI 论文速递

关键词vqa

搜索结果 - 45

AAAI多模态乘积特征嵌入共同关注自由形式区域和检测用于视觉问答
本篇研究提出了一种基于注意力机制和深度神经网络的视觉问答方法，通过多模态特征嵌入策略，联合关注自由区域和检测框区域，实现更准确的图像问答。在 COCO-QA 和 VQA 数据集上测试，结果表明该方法优于现有方法。
PDF7 years ago
视觉问答的双重任务：视觉问题生成
提出了 Invertible Question Answering Network (iQAN) 框架，该框架通过对 VQA 和 VQG 任务同时训练，利用图像中的问题和答案之间的互补关系，使用对应的参数共享方案和正则项来明确 Q，A 之间
PDF7 years ago
图形化结构表示用于视觉问题回答
本文提出通过建立基于场景信号和问题信息的图结构，应用深度神经网络分析问题的方法来提升视觉问答（VQA）的性能，相比于基于 CNN/LSTM 的 VQA 方法，本方法获得了显著的改善，其准确性从 71.2％提高到 74.4％，在不同的 “平衡
PDF8 years ago
EMNLP分析视觉问答模型的行为
本文研究了基于深度学习模型的视觉问答模型，发现现有模型的准确率在 60-70％之间，且本文提出系统分析这些模型行为的方法，发现这些模型存在缺点，包括不够全面、容易得出错误答案和不易更正的问题。
PDF8 years ago
询问神经元：视觉问答的深度学习方法
本文介绍了如何通过结合图像表示和自然语言处理的最新进展来解决实际图像的问答任务，并提供了两个新的度量标准来分析人类共识以及如何在 DAQUAR 数据集上调整我们的方法以获得更好的性能。
PDF8 years ago