visual question answering | BriefGPT

关键词visual question answering

搜索结果 - 457

FlowVQA：将流程图用于视觉问答中的多模态逻辑映射
FlowVQA 是一个新颖的基准测试，旨在评估多模态语言模型在使用流程图作为视觉上下文进行推理的能力，其组成包括来自三个不同内容来源的 2,272 张经过精心生成和人工验证的流程图像以及 22,413 个多样化的问答对，以测试一系列推理任务
PDF3 days ago
迷失于能力中：评估解释对用户对视觉问答系统的心智模型的影响
我们研究了当一个 AI 系统遇到一项不能完美执行的任务时，用户如何看待其限制，并且提供解释是否有助于用户构建系统能力和限制的适当心理模型。通过控制视觉输入，在视觉问答解释任务中，我们操控 AI 系统的限制：在推理过程中，该系统可以处理全彩色
PDF3 days ago
在视觉问答中通过模态感知特征蒸馏增强连续学习
模态感知特征蒸馏在多模态连续学习中表现出优于现有基准方法的结果，并强调了解决模态特定动态性的重要性以防止遗忘。
PDF3 days ago
MMNeuron：发现多模态大语言模型中的神经元级领域特定解释
通过研究多模态大型语言模型的内部机制，我们在多语种研究的启发下，发现了多模态大型语言模型中的领域特定神经元，并研究了这些模型如何处理来自不同领域的特征。进一步地，我们提出了一个三阶段的语言模型模块框架，用于处理投影的图像特征，并使用逻辑镜头
PDF13 days ago
精确赋能，过度分散：动态注入语言模型中的视觉问答知识
通过提供来自知识图谱中提取的相关外部知识，我们通过增强问题并实现可变数量的三元组，为知识增强的视觉问答模型带来了平均 4.75％的准确匹配得分提升，并展示了其在推理能力和泛化能力方面的优势。
PDF16 days ago
视觉 - 语言模型遇上气象学：利用热力图开发极端天气事件检测模型
实时检测和预测极端天气，通过将其作为一个视觉问答问题重新定义，引入了一种更精确、自动化的解决方案。利用视觉语言模型同时处理视觉和文本数据，我们的研究提供了一种有效的辅助分析气象热图过程的方法。通过介绍气候问答数据集 ClimateIQA 和
PDF16 days ago
优化驾驶视觉问答模型：弥合人类与机器注意力模式的差距
该研究通过比较人类和 VQA 模型在回答与驾驶相关的问题时的注意模式，揭示了观察对象方面的差异。我们提出了一种整合过滤器来优化模型的注意机制的方法，优先考虑相关对象并提高准确性。通过将 LXMERT 模型应用于案例研究，我们比较了预训练模型
PDF17 days ago
CVQA：跨文化多语言视觉问答基准
构建了 CVQA，一个新的多元文化多语言视觉问答基准，覆盖了 28 个国家的文化驱动图像和问题，包括 26 种语言和 11 种文字，共提供了 9k 个问题。针对 CVQA 对几种多模态大型语言模型进行了基准测试，显示出该数据集对当前最先进的
PDF20 days ago
多模态大型语言模型中信息存储和传递的理解
理解变压器模型中的信息存储和传输机制对推进模型理解的进展至关重要，最近的研究关注了大型语言模型（LLMs）中的这些机制，揭示了信息存储在模型参数中的方式以及特定提示下信息如何流入和流出这些参数，然而，这些研究尚未扩展到多模态大型语言模型（M
PDF24 days ago
扩散优化的半监督凝视跟踪 VQA 注释
通过引入两个新的先验条件，我们提出了首个半监督的凝视追踪方法。我们利用大型预训练的视觉问答模型计算 Grad-CAM 热图，并通过修正扩散模型中的反向采样过程来改进热图。我们的方法在 GazeFollow 图像数据集上胜过简单的伪标注生成基
PDFa month ago
ACL翻译需改进：对跨语言视觉问答翻译现象的分析
建立一个可靠的跨语言视觉问答系统是一个具有挑战性的问题，主要原因是在训练过程中缺乏丰富的样本。为了解决这一问题，最近的研究采用了机器翻译系统进行跨语言视觉问答任务。然而，我们的分析发现翻译文本具有独特的特征，与人工编写的文本不同，被称为翻译
PDFa month ago
多模式 LLMs 中的反向图像检索提示参数记忆
使用 Reverse Image Retrieval（RIR）辅助生成的简单而有效的策略，对于 GPT-4 系列等最先进的多模态大型语言模型（MLLM）来说，RIR 显著提高了知识密集型的视觉问答性能，通过开放式 VQA 评估指标，GPT-
PDFa month ago
意识到提示的适配器：为多模态大型语言模型学习自适应的视觉特征
为了弥补视觉和语言模态之间的差距，我们提出了 prompt-aware 适配器，这些适配器根据提示的特定焦点动态嵌入视觉输入，以从提示中捕捉到最相关的视觉线索，从而显著增强了大型语言模型理解和解释视觉内容的能力。实验表明 prompt-aw
PDFa month ago
UDKAG: 增强大型视觉语言模型的最新知识
提出了一种名为 UDKAG 的框架，通过互联网搜索来为 Large vision-language models 提供最新的知识，以应对视觉问答。使用层级过滤模型从搜索引擎返回的网站中有效地找到最有帮助的内容。实验结果表明，该框架的效果比
PDFa month ago
PitVQA: 基于图像引导的文本嵌入 LLM 用于垂体手术的视觉问答
本文提出了 PitVQA 和 PitVQA-Net，通过图像和文本信息的联合嵌入和上下文表示，解决了对内窥镜垂体手术领域中复杂的问答任务的挑战，并在 PitVQA 和 EndoVis18-VQA 数据集上取得了显著性能改进。
PDFa month ago
乌尔都语自然场景文本检测、识别和视觉问答的数据集和基准
通过提供 1000 多幅自然场景图像，该研究提出了一个新的多任务乌尔都语场景文本数据集，用于文本检测、识别和视觉问答任务，并解决了之前数据集在面对任意形状文本时的限制。该数据集通过引入额外的标注点，方便了对能够处理多样文本布局、复杂形状和非
PDFa month ago
变色龙：混合模式早期融合基础模型
Chameleon 是一种早期融合的基于令牌的混合模态模型系列，能够理解和生成任意顺序的图像和文本。它在图像问答、图像描述、文本生成、图像生成和长格式混合模态生成等任务上展现了广泛和通用的能力，包括在图像描述任务中达到了最先进的性能水平，同
PDFa month ago
实现教育的视觉问答：GPT-4V 作为一种多模态人工智能
这篇论文介绍了 Visual Question Answering（VQA）技术在教育研究中的应用，特别是 GPT-4V 在促进 VQA 技术的普及和提高教育研究方法方面的作用。
PDF2 months ago
VSA4VQA: 将矢量符号体系扩展到自然图像的视觉问答中
提出了一种名为 VSA4VQA 的新型 VSAs 的实施，它是第一个将 VSA 扩展到复杂空间查询的模型，并通过引入学习的空间查询掩模和预训练的视觉 - 语言模型来解决视觉问题回答任务，评估结果表明它能够有效地编码自然图像，并取得与最先进的
PDF2 months ago
增强的视觉问答：卷积的比较分析与文本特征提取
本研究论文比较了复杂的文本模型和简单的局部文本特征模型在 VQA 中的效果，并发现采用复杂的文本编码器并不总是最优的选择。基于这一发现，论文提出了一种改进的模型 ConvGRU，通过引入卷积层增强了问题文本的表示，在 VQA-v2 数据集上
PDF2 months ago