视觉语言模型的零-shot视觉推理:基准测试与分析
本文提出了一个名为IPVR的交互提示视觉推理框架,用于少样本的基于知识的视觉推理,它包含see,think和confirm三个阶段,利用视觉感知模型和大规模语言模型进行推理,可实现对推理过程的全透明跟踪和解释。
Jan, 2023
本研究探索了使用各种提示策略来增强零样本视觉问答性能的方法,重点关注BLIP2模型,通过在多个视觉问答数据集上进行全面研究,发现精心设计的问题模板和集成附加视觉提示,如图像标题,可以提高VQA绩效,特别是在与少量样本示例结合使用时。
Jun, 2023
该研究旨在通过模仿人类视觉问题解决中的“看、记住、推理”模式,引入基于视觉输入的原理来整合低级视觉能力,使现有的大型语言模型能够在视觉推理问题上取得竞争性表现。
Jun, 2023
通过LLM-Human-in-the-Loop流程和CURE基准,我们评估了现有的VLMs,并发现即使是表现最佳的模型也无法展示出强大的视觉推理能力和一致性,表明需要大量努力使VLMs能够像人类一样系统而一致地进行视觉推理。作为初步步骤,我们提出了一个两阶段训练框架,旨在提高VLMs的推理性能和一致性。第一阶段涉及使用由LLMs自动生成的逐步推理样本对VLMs进行监督微调。在第二阶段,我们进一步通过结合LLMs提供的反馈来增强训练过程,以产生高度一致和可靠的推理链。我们在推理性能和一致性方面经验上突出了我们框架的有效性。
Sep, 2023
通过协调多个视觉-语言模型,我们提出 Cola,这是一种新颖的方法,通过促进自然语言交流以利用它们的不同且互补的能力,大型语言模型可以高效地协调多个视觉-语言模型,从而实现令人印象深刻的视觉推理能力。
Oct, 2023
通过生成推理问题提示,为零样本情景中的大型语言模型在零样本视觉问答任务中的问题回答问题选择和生成保持完整性、语义合理性和句法不变性,从而显著提高了大型语言模型在零样本情景中的性能。
Nov, 2023
此研究旨在通过提供合理的理由作为预测答案的原因,解释并回答视觉场景问题。尽管Vision-Language Transformers在表现上令人满意,但它们存在预训练效果有限、意外的语言偏见、模型架构受限和忽视重要的物体-标签相关性等缺点。因此,从数据集、评估指标和训练技巧等角度,本研究对于未来研究提出了一些方向,有望让研究人员重新审视VCR的直觉和目标,并帮助克服视觉推理中的挑战。
May, 2024
Prism是一个创新的框架,旨在解决视觉问题求解中构成的知觉和推理过程的相互交织难题,通过将感知和推理分离为两个不同的阶段,实现了对专有和开源Vision Language Models在感知和推理能力上的系统比较和评估。通过将专注于感知的精简VLM与专为推理而设计的强大LLM相结合,Prism在一般的视觉语言任务中取得了卓越的结果,同时大幅减少了训练和操作成本的投入。在严格的多模式基准MMStar上,使用vanilla 2B LLaVA和免费获取的GPT-3.5配置Prism,在性能上媲美比其大10倍的VLM。
Jun, 2024
我们探索了视觉-语言模型中的多步推理问题,并提出了一种新的数据合成方法,通过使用先生成较简单的子任务,并依赖开源模型来完成这些子任务,从而构建了50000个视觉推理示例,并通过监督微调开发了一种视觉推理器,可以显著改善四个视觉问答基准上的四个视觉-语言模型的推理能力。
Jun, 2024