visual question answering | BriefGPT

关键词visual question answering

搜索结果 - 457

CVPRWiki-LLaVA: 分层的检索增强生成模型用于多模态语言模型
我们提出了一种名为 Wiki-LLaVA 的方法，通过一个分层检索流程，将多模态文档的外部知识源集成到 LLM 中，用作额外的上下文，从而增强了生成的对话的效果和准确性。我们在具有外部数据的视觉问答数据集上进行了大量实验，并证明了该方法的适
PDF2 months ago
探索多种方法在视觉问答中的应用
本研究探讨了使用生成对抗网络（GANs）、自编码器和注意力机制改进视觉问答（VQA）的创新方法。研究发现，通过利用一个平衡的 VQA 数据集，GAN-based 方法提供了生成与图像和问题相关的答案嵌入的潜力，但在处理较复杂的任务时存在困难
PDF2 months ago
ViTextVQA：用于评估图像中越南文本理解的大规模视觉问答数据集
通过对 OCR 文本中令牌的处理和选择顺序的细致实验，我们发现这一发现显著提高了在 ViTextVQA 数据集上基准模型的性能。
PDF3 months ago
CVPR通过问题驱动的图像标题作为提示，增强视觉问答能力
通过在视觉问题回答（VQA）过程中利用图像描述作为中介步骤，建立零样本设置，探索了零样本 VQA 的影响。比较了最先进的图像描述模型对于不同问题类型的 VQA 性能在结构和语义上的影响，并在 VQA 过程中提出了一种简单高效的问题驱动图像描
PDF3 months ago
HAMMR: 分层多模态反应智能代理程序用于通用 VQA
利用大型语言模型（LLMs）与外部专用工具（LLMs+tools）相结合是解决多模态任务（如视觉问答）的最新范式。本研究以统一的视角提出 VQA 问题，并在包括计数、空间推理、OCR-based 推理、视觉指向、外部知识等各种 VQA 任务
PDF3 months ago
基于多模态大语言模型的联合视觉与文本提示改善目标中心感知
使用视觉和文本提示的新方法 (VTPrompt) 提高了 Multimodal Large Language Models 在物体感知方面的能力，并在三个基准测试上表现出显著的改进。
PDF3 months ago
TinyVQA: 资源受限设备上用于视觉问答的紧凑多模态深度神经网络
本文提出了 TinyVQA，一种用于资源受限的小型机器学习硬件上运行的视觉问答任务的新型多模态深度神经网络。通过使用监督式注意力模型来学习如何使用视觉和语言模态回答图像相关问题，TinyVQA 在 FloodNet 数据集上取得了 79.5
PDF3 months ago
不可解问题检测：评估视觉语言模型的可信度
本文介绍了一项名为无法解决问题检测（UPD）的视觉语言模型（VLM）的新挑战，通过视觉问答（VQA）任务中遇到无法解决的问题来考察 VLM 在保留答案方面的能力。我们通过广泛的实验发现，包括 GPT-4V 和 LLaVA-Next-34B
PDF3 months ago
自动驾驶问答的多帧、轻量级和高效视觉语言模型
EM-VLM4AD 是一种轻量级、高效的多帧视觉语言模型，用于自动驾驶中的视觉问答任务，相较于先前方法，它在内存和浮点运算资源的使用上减少了至少 10 倍，并在 DriveLM 数据集上获得了更高的 BLEU-4、METEOR、CIDEr
PDF3 months ago
COLINGJDocQA: 用于生成语言模型的日语文档问答数据集
日本文献の質問応答 (JDocQA) は、PDF 形式の 5,504 の文書と日本語でアノテーションされた 11,600 の質問応答インスタンスから成る大規模な文書ベースの QA データセットであり、質問応答アプリケーションにおいて実用的な
PDF3 months ago
量化和减轻多模大型语言模型中的单模偏差：因果视角
近期，大型语言模型 (LLM) 的进展促进了多模态 LLM (MLLM) 的发展。虽然 MLLM 具有令人印象深刻的能力，但往往过于依赖单模态偏见（例如，语言偏见和视觉偏见），导致在复杂的多模态任务中回答错误。为了研究这个问题，我们提出了一
PDF3 months ago
COLING基于凝视的视觉问答数据集用于澄清模糊的日语问题
通过利用注视信息澄清有歧义的问题，我们提出了以注视为基础的视觉问题回答数据集 (GazeVQA)，并提出了一种利用注视目标估计结果提高 GazeVQA 任务准确性的方法。实验结果显示该方法在某些情况下提高了 VQA 系统在 GazeVQA
PDF3 months ago
COLING用于可解释图像问题回答的内在子图生成
这篇论文引入了一种可解释的基于图的 VQA 方法，并在 GQA 数据集上展示了竞争性的性能，通过在问答过程中生成一个子图作为解释来提供决策过程的洞察力。
PDF3 months ago
多智能体视觉问答：在零样本条件下探索多智能体基础模型
本文研究了基于视觉问答（VQA）任务中基础模型的零 - shot 能力。我们提出了一种自适应多智能体系统，称为多智能体 VQA，通过使用专门的智能体作为工具，克服了基础模型在目标检测和计数方面的局限性。与现有方法不同的是，我们的研究重点在于
PDF3 months ago
数据效率改进基于感知增强的 LLMs 基准
大语言模型在计算机视觉领域中通过不同的接口机制实现图像字幕和视觉问题回答的任务，通过实验评估各种接口机制和数据集，发现现有机制在多个任务中表现更好，并识别出一种新的接口机制，在不同任务上获得接近最优的结果，并降低了训练时间。
PDF3 months ago
WoLF：大规模语言模型框架用于 CXR 理解
通过 WoLF 框架，我们解决了现有 CXR 理解框架的若干问题，通过捕捉多方位的病人记录进行准确诊断，通过解耦 CXR 报告中基于解剖结构的知识进行报告生成的性能增强，并通过 AI 评估协议在 VQA 和报告生成方面展示了卓越的性能。
PDF3 months ago
FlexCap: 在图像中生成丰富、本地化和灵活的标题
我们介绍了一种多功能的 “灵活字幕” 视觉语言模型（VLM），能够生成长度各异的区域特定描述。该模型 FlexCap 训练用于为输入边界框生成长度条件化的字幕，从而控制其输出的信息密度，从简要的物体标签到详细的字幕不等。通过创建大规模的训练
PDF3 months ago
利用视觉语言模型将少样本图像分类和分割作为视觉问答
用视觉引导的分割和评估方法将少样本图像分类和分割问题转化为视觉问答问题，利用视觉语言模型以无需训练的方式进行解决，并通过交互式学习和模块化框架达到最先进的性能。
PDF4 months ago
COLINGCLEVR-POC：部分可观察环境下的推理密集型视觉问答
CLEVR-POC 是一个基于部分可观察环境下的逻辑约束的推理密集型视觉问答基准，通过集成 GPT-4 大型语言模型、视觉感知网络和形式逻辑推理器，展示了在可用且至关重要的环境特定背景知识下实现卓越性能的神经符号模型。
PDF4 months ago
医疗报告生成和视觉问答的视觉语言模型综述
医学视觉语言模型结合了计算机视觉和自然语言处理，用于分析视觉和文本式医学数据。我们的论文回顾了最近在开发医学领域专用的视觉语言模型方面的进展，重点关注医学报告生成和视觉问答模型。我们提供了自然语言处理和计算机视觉的背景，解释了如何将两个领域
PDF4 months ago