通过生成推理问题提示,为零样本情景中的大型语言模型在零样本视觉问答任务中的问题回答问题选择和生成保持完整性、语义合理性和句法不变性,从而显著提高了大型语言模型在零样本情景中的性能。
Nov, 2023
对于图像中的问题,通过使用语言指导(LG)如解释、图像标题、场景图等方面的共识知识、世界知识和理解创意和概念来回答问题更准确;提出了一种多模态框架,使用 CLIP 和 BLIP 模型通过 A-OKVQA、Science-QA、VSR 和 IconQA 数据集的多选问题回答任务进行了基准测试,语言指导使得 CLIP 的性能提高了 7.6%,BLIP-2 的性能提高了 4.8%;使用所提出的语言指导在 Science-QA、VSR 和 IconQA 数据集上也观察到了持续的性能改进。
Oct, 2023
基于文本识别的图像视觉问答是一个跨模态任务,需要图像理解和文本识别。本文研究了基于 LLM 方法在解决此问题时的优势和瓶颈,并通过整合 OCR 模块和 MLLM 发现多数 MLLM 可以理解 OCR 信息,为训练保留 LLM 能力提供了启示。
提出了 Img2Prompt 模块,它可以提供可以描述图像内容和自构建问题答案对的提示,并且能够帮助 LLMs 执行无需端到端训练的零射击 VQA 任务。
Dec, 2022
该论文提出了一种利用海量知识库和预训练语言模型的模型,通过将图像转换为纯文本,以进行知识检索和自然语言生成问答,其中使用的框架为 TRiG 框架,并取得了比所有最先进的监督方法多至少 11.1%的绝对优势。
Jan, 2022
通过结合预训练大型语言模型和其他基础模型,本研究探索了一种无需进一步训练即可解决视觉问答问题的方法,并对不同的解码策略在 VQAv2 数据集上进行了性能评估。
Sep, 2023
本论文提出了一个可解释的多智能体协作框架,通过利用在广泛语料库上训练的大型语言模型中嵌入的知识,以人类认知为灵感,使用三个智能体,即探索者、回答者和整合者,进行自顶向下推理过程,从而明确地构建特定图像场景的多视图知识库,以自顶向下的处理方式推理答案。我们在多样化的视觉问答数据集和视觉语言模型上对我们的方法进行了广泛评估,并通过全面的实验结果证明了其广泛的适用性和可解释性。
本文研究了将通用知识库中的知识注入视觉 - 语言模型中,并通过辅助训练目标增加了语义和关系知识的表征,实现了对问题回答、视觉推理等任务中的性能提升,这种技术不依赖于特定的模型,具有较小的计算开销。
Jan, 2021
新方法和基础性性能的比较与现有机器学习方法中挑战的问题进行了讨论,最终提出了 Visuo-Linguistic Question Answering 作为计算机视觉和自然语言处理的基准测试集。
May, 2020
通过引入问题驱动的视觉探索 (QVix),可以增强大型视觉语言模型 (LVLMs) 在零样本推理任务中的探索能力,提高其推理准确性和深度。
Dec, 2023