通过大型语言模型增强视觉语言模型的推理能力
本文通过引入 WikiTiLo 数据集,并实施两阶段的识别和推理探测任务,研究基于大规模图像 - 文本资源预训练的视觉语言模型是否能够像人类一样通过视觉线索推断图像的时间和地点,并发现 VLMs 虽然能够有效地保留视觉编码器中的相关特征,但仍然无法进行完美的推理。
Jul, 2023
在 VLMs 中,我们提出了一种从 LLMs 转移能力的技术,通过改善图表表示和构建比原始训练集大 20 倍的数据集,合成图表的推理痕迹,最后使用多任务损失对模型进行微调,取得了令人满意的性能。
Mar, 2024
通过协调多个视觉 - 语言模型,我们提出 Cola,这是一种新颖的方法,通过促进自然语言交流以利用它们的不同且互补的能力,大型语言模型可以高效地协调多个视觉 - 语言模型,从而实现令人印象深刻的视觉推理能力。
Oct, 2023
通过 LLM-Human-in-the-Loop 流程和 CURE 基准,我们评估了现有的 VLMs,并发现即使是表现最佳的模型也无法展示出强大的视觉推理能力和一致性,表明需要大量努力使 VLMs 能够像人类一样系统而一致地进行视觉推理。作为初步步骤,我们提出了一个两阶段训练框架,旨在提高 VLMs 的推理性能和一致性。第一阶段涉及使用由 LLMs 自动生成的逐步推理样本对 VLMs 进行监督微调。在第二阶段,我们进一步通过结合 LLMs 提供的反馈来增强训练过程,以产生高度一致和可靠的推理链。我们在推理性能和一致性方面经验上突出了我们框架的有效性。
Sep, 2023
该研究旨在通过模仿人类视觉问题解决中的 “看、记住、推理” 模式,引入基于视觉输入的原理来整合低级视觉能力,使现有的大型语言模型能够在视觉推理问题上取得竞争性表现。
Jun, 2023
通过对大型语言模型的研究,我们发现它们在逻辑推理方面存在缺陷,导致其在任务解决中产生反事实的答案。为了解决这个问题,我们提出了多种策略,赋予大型语言模型逻辑推理能力,从而使其能够在不同场景中生成更符合逻辑的答案。我们还通过构建一个综合数据集 (LMM-LR) 对该方法进行了评估和预训练。在不同任务上进行了广泛的定量和定性分析,验证了通过逻辑训练大型语言模型的有效性和必要性,并为将来的工作提供了启示。
Oct, 2023
通过使用具有丰富语义的图像,我们提出了一种新的评估基准,评估大规模视觉语言模型(LVLMs)的高级认知能力。该基准定义了八种推理能力,并包括图像描述任务和视觉问答任务。我们对知名的 LVLMs 进行评估发现,LVLMs 与人类之间的认知能力差距仍然很大。
Feb, 2024
通过添加视觉相关信息作为预先说明以减少不确定性,并改变提问方式以提高模型性能,在图像问答任务中,使用 RepARe 框架可以显著提高零样本性能,并通过对输出进行深入分析,展示了如何提高句法复杂性并有效利用 LVLMs 中的视觉 - 语言交互和冻结语言模型。
Oct, 2023
近期,Vision-Language Models (VLMs) 取得了惊人的进展,但在基于视觉的演绎推理方面仍存在尚未发现的局限性。采用 Raven's Progressive Matrices (RPMs) 测试了几种热门的 VLMs 的能力,结果表明,虽然 VLMs 在文本推理方面表现出色,但在视觉演绎推理方面还有很大提升空间。详细分析揭示出 VLMs 在解决这些任务时主要困难在于无法感知和理解 RPM 示例中的多个、混淆的抽象模式。
Mar, 2024
我们的研究工作探索了预训练的视觉语言模型(VLM)和大型语言模型(LLM)在视觉常识推理(VCR)中的协同能力。我们将 VCR 问题分为视觉常识理解(VCU)和视觉常识推断(VCI)两个方面。在 VCU 方面,预训练的 VLM 展示出强大的跨数据集泛化能力。然而,在 VCI 方面,VLM 面临困难。我们提出了名为 ViCor 的协作方法,在 VCI 中通过 LLM 主动引导 VLM 集中关注和收集相关的视觉元素来支持潜在的常识推断。我们的方法在两个 VCR 基准数据集上得到了评估,并且在不需要领域内监督微调的所有其他方法之上取得了优越的表现。
Oct, 2023