通过生成推理问题提示,为零样本情景中的大型语言模型在零样本视觉问答任务中的问题回答问题选择和生成保持完整性、语义合理性和句法不变性,从而显著提高了大型语言模型在零样本情景中的性能。
Nov, 2023
对于图像中的问题,通过使用语言指导(LG)如解释、图像标题、场景图等方面的共识知识、世界知识和理解创意和概念来回答问题更准确;提出了一种多模态框架,使用 CLIP 和 BLIP 模型通过 A-OKVQA、Science-QA、VSR 和 IconQA 数据集的多选问题回答任务进行了基准测试,语言指导使得 CLIP 的性能提高了 7.6%,BLIP-2 的性能提高了 4.8%;使用所提出的语言指导在 Science-QA、VSR 和 IconQA 数据集上也观察到了持续的性能改进。
Oct, 2023
基于文本识别的图像视觉问答是一个跨模态任务,需要图像理解和文本识别。本文研究了基于 LLM 方法在解决此问题时的优势和瓶颈,并通过整合 OCR 模块和 MLLM 发现多数 MLLM 可以理解 OCR 信息,为训练保留 LLM 能力提供了启示。
我们分析了基于知识的视觉问答,研究问题是:1)我们能通过显式有监督检索相关知识解决知识库 - 视觉问答问题吗?2)任务特定模型和预训练语言模型在视觉和外部知识的整合以及多跳推理方面的表现如何?3)预训练语言模型的隐式知识足够用于知识库 - 视觉问答吗?结果表明,将特定任务和预训练语言模型与显式的外部和视觉知识检索模型相结合可以取得良好效果。预训练语言模型在 1 跳推理方面更强,但在 2 跳推理方面不如我们精调的神经网络模型,尽管两种模型都可以获取两种信息的相关信息。此外,我们观察到预训练语言模型在与知识库相关的问题上优于神经网络模型,这证实了预训练语言模型中隐式知识的有效性,然而,它们并不能代替对外部知识的需求。
Apr, 2024
提出了 Img2Prompt 模块,它可以提供可以描述图像内容和自构建问题答案对的提示,并且能够帮助 LLMs 执行无需端到端训练的零射击 VQA 任务。
Dec, 2022
我们提出了一种名为 GeReA 的生成 - 推理框架,利用视觉和语言信息激活了多模态大语言模型(MLLM)作为隐式知识引擎,用于基于知识的视觉问答,它在 OK-VQA 和 A-OKVQA 数据集上的测试准确率分别为 66.5% 和 63.3%,超过了所有先前的最先进方法。
Feb, 2024
该论文提出了一种利用海量知识库和预训练语言模型的模型,通过将图像转换为纯文本,以进行知识检索和自然语言生成问答,其中使用的框架为 TRiG 框架,并取得了比所有最先进的监督方法多至少 11.1%的绝对优势。
Jan, 2022
使用大型语言模型和多模态语言模型,我们开发了一种方法将特定领域的视觉和视觉 - 语言数据集转化为统一的问答格式,从而扩展了多模态语言模型用于特定领域任务,实验结果表明该方法在特定领域的视觉任务和视觉 - 语言任务上达到了高分数指标并保持了多任务的性能。
通过结合预训练大型语言模型和其他基础模型,本研究探索了一种无需进一步训练即可解决视觉问答问题的方法,并对不同的解码策略在 VQAv2 数据集上进行了性能评估。
Sep, 2023
本论文提出了一个可解释的多智能体协作框架,通过利用在广泛语料库上训练的大型语言模型中嵌入的知识,以人类认知为灵感,使用三个智能体,即探索者、回答者和整合者,进行自顶向下推理过程,从而明确地构建特定图像场景的多视图知识库,以自顶向下的处理方式推理答案。我们在多样化的视觉问答数据集和视觉语言模型上对我们的方法进行了广泛评估,并通过全面的实验结果证明了其广泛的适用性和可解释性。