关键词visual question answering (vqa)
搜索结果 - 7
- S-EQA: 应对落地问答中的情境查询
我们介绍了一种新的问题回答方法,通过 Prompt-Generate-Evaluate (PGE) 方案包装 LLM 的输出来生成独特的情境查询,展示出第一个解决情境查询的数据集 S-EQA。
- 根据要求进行设计:利用视觉问答进行多模态预训练
我们利用多模态预训练中的视觉问题回答(VQA)指导框架,聚焦目标病理特征,通过医学报告中的描述设计了关联不同疾病的多粒度问题 - 答案对,并提出了一种基于准文本特征变换的新型预训练框架,将视觉特征转化为接近文本领域的准文本空间,缩小了视觉 - 视觉幻觉:定义、量化和规范化疗法
本研究针对视觉 - 语言模型中的幻觉进行细致的分析,并通过图像字幕和视觉问答两个任务,确定了八个精细化的视觉幻觉方向:上下文猜测、身份不一致、地理错误、视觉错觉、性别异常、VLM 作为分类器、错误阅读和数字不一致。同时,还提供了一个包含 2 - 冻结 LLMs 的少样本 VQA 方法比较
通过对 LLMs 的两种输入图像的方法进行比较,本研究发现对于具有 3B 参数 LLMs 的 Flan-T5 XL 模型,将图像特征嵌入直接连接到 LLM 嵌入空间并不能保证相比使用图像标题获得更好的性能,在零样本情况下,使用文本图像标题效 - 多模态图像的动态任务和权重优先课程学习
探索使用多模式深度学习模型与课程学习方法进行灾后分析,提出一种新颖的课程学习方法(DATWEP)自动决定任务难度,通过 DATWEP 的整合,加强了视觉问答(VQA)性能。
- Bilinear 超对角线融合在视觉问答与视觉关系检测中的应用
该研究着眼于多模态表征学习中的问题,提出一种基于块超对角张量分解的多模态融合模型 BLOCK,该模型比传统双线性模型具有更好的表达能力和效率,在视觉问答等任务中表现出了优异的结果。
- 多模态基于注意力机制视频特征的端到端视听场景感知对话
该论文介绍了一种新的视频场景感知对话系统,该系统将多个研究领域的最新技术整合应用 ,包括端到端的对话技术、视觉问答技术,以及视频描述技术。通过收集一个有关人类行为视频的对话数据集,作者们使用该数据集训练出一种多模态对话模型,它可以在对视频进