visual question answering (vqa) | BriefGPT

关键词visual question answering (vqa)

搜索结果 - 7

S-EQA: 应对落地问答中的情境查询
我们介绍了一种新的问题回答方法，通过 Prompt-Generate-Evaluate (PGE) 方案包装 LLM 的输出来生成独特的情境查询，展示出第一个解决情境查询的数据集 S-EQA。
PDF2 months ago
根据要求进行设计：利用视觉问答进行多模态预训练
我们利用多模态预训练中的视觉问题回答（VQA）指导框架，聚焦目标病理特征，通过医学报告中的描述设计了关联不同疾病的多粒度问题 - 答案对，并提出了一种基于准文本特征变换的新型预训练框架，将视觉特征转化为接近文本领域的准文本空间，缩小了视觉
PDF3 months ago
视觉幻觉：定义、量化和规范化疗法
本研究针对视觉 - 语言模型中的幻觉进行细致的分析，并通过图像字幕和视觉问答两个任务，确定了八个精细化的视觉幻觉方向：上下文猜测、身份不一致、地理错误、视觉错觉、性别异常、VLM 作为分类器、错误阅读和数字不一致。同时，还提供了一个包含 2
PDF3 months ago
冻结 LLMs 的少样本 VQA 方法比较
通过对 LLMs 的两种输入图像的方法进行比较，本研究发现对于具有 3B 参数 LLMs 的 Flan-T5 XL 模型，将图像特征嵌入直接连接到 LLM 嵌入空间并不能保证相比使用图像标题获得更好的性能，在零样本情况下，使用文本图像标题效
PDF4 months ago
多模态图像的动态任务和权重优先课程学习
探索使用多模式深度学习模型与课程学习方法进行灾后分析，提出一种新颖的课程学习方法（DATWEP）自动决定任务难度，通过 DATWEP 的整合，加强了视觉问答（VQA）性能。
PDF8 months ago
Bilinear 超对角线融合在视觉问答与视觉关系检测中的应用
该研究着眼于多模态表征学习中的问题，提出一种基于块超对角张量分解的多模态融合模型 BLOCK，该模型比传统双线性模型具有更好的表达能力和效率，在视觉问答等任务中表现出了优异的结果。
PDF5 years ago
多模态基于注意力机制视频特征的端到端视听场景感知对话
该论文介绍了一种新的视频场景感知对话系统，该系统将多个研究领域的最新技术整合应用，包括端到端的对话技术、视觉问答技术，以及视频描述技术。通过收集一个有关人类行为视频的对话数据集，作者们使用该数据集训练出一种多模态对话模型，它可以在对视频进
PDF6 years ago