ROME：评估预训练的视觉 - 语言模型在超越视觉常识推理上的表现

EMNLPOct, 2023

ROME：评估预训练的视觉 - 语言模型在超越视觉常识推理上的表现

ROME: Evaluating Pre-trained Vision-Language Models on Reasoning beyond Visual Common Sense

Kankan Zhou, Eason Lai, Wei Bin Au Yeong, Kyriakos Mouratidis, Jing Jiang

TL;DR评估最新的预训练视觉 - 语言模型在解释反直觉情境方面的推理能力，揭示大多数模型在此方面仍然相当无能。

Abstract

Humans possess a strong capability for reasoning beyond common sense. For example, given an unconventional image of a goldfish laying on the table next to an empty fishbowl, a human would effortlessly determine that the fish is not inside the fishbowl. The case, however, may be differe

reasoning commonsense knowledge vision-language models counter-intuitive content probing dataset

发现论文，激发创造

超越语言：从图片中学习常识进行推理

本文提出了一种从图像中学习常识的新方法，利用双模态序列到序列模型进行场景布局生成任务，并在通感问题回答和代词消解领域实验中证明了新方法的有效性。

Oct, 2020

通过大型语言模型增强视觉语言模型的推理能力

本文提出了一种名为 TReE 的方法，用于在零样本场景中将大型语言模型（LLMs）的推理能力转移给视觉语言模型（VLM），包含观察、思考和重新思考三个阶段。

May, 2023

自然语言视觉推理

本论文提出了一个自然语言视觉推理的任务，通过图片和描述语句的配对，预测描述语句在给定场景中的真假。该任务涉及自然语言、机器人代理、语言输入、视觉推理以及合成图像等方面。

Oct, 2017

视觉语言模型是否能够成为良好猜测器？探索 VLM 的时间和位置推理能力

本文通过引入 WikiTiLo 数据集，并实施两阶段的识别和推理探测任务，研究基于大规模图像 - 文本资源预训练的视觉语言模型是否能够像人类一样通过视觉线索推断图像的时间和地点，并发现 VLMs 虽然能够有效地保留视觉编码器中的相关特征，但仍然无法进行完美的推理。

Jul, 2023

视觉推理与基础合理性：看、记住和推理

该研究旨在通过模仿人类视觉问题解决中的 “看、记住、推理” 模式，引入基于视觉输入的原理来整合低级视觉能力，使现有的大型语言模型能够在视觉推理问题上取得竞争性表现。

Jun, 2023

智能视觉演绎推理有多远？

近期，Vision-Language Models (VLMs) 取得了惊人的进展，但在基于视觉的演绎推理方面仍存在尚未发现的局限性。采用 Raven's Progressive Matrices (RPMs) 测试了几种热门的 VLMs 的能力，结果表明，虽然 VLMs 在文本推理方面表现出色，但在视觉演绎推理方面还有很大提升空间。详细分析揭示出 VLMs 在解决这些任务时主要困难在于无法感知和理解 RPM 示例中的多个、混淆的抽象模式。

Mar, 2024

分层推理用于直觉物理：向可验证的常识语言理解迈进

本文介绍了 Tiered Reasoning for Intuitive Physics（TRIP）的概念，这是一种用于解决机器语言理解和推理方面的通用常识推理数据集。作者指出，尽管大型预训练语言模型可以在终端任务上取得高端性能，但是它们在为其预测提供有效的支持证据方面表现不佳。作者提出的 TRIP 数据集和基线结果将有助于推动常识推理的可验证评估，并促进未来开发更好的语言理解和推理模型的研究。

Sep, 2021

测量和改进视觉 - 语言模型的思维链推理

通过 LLM-Human-in-the-Loop 流程和 CURE 基准，我们评估了现有的 VLMs，并发现即使是表现最佳的模型也无法展示出强大的视觉推理能力和一致性，表明需要大量努力使 VLMs 能够像人类一样系统而一致地进行视觉推理。作为初步步骤，我们提出了一个两阶段训练框架，旨在提高 VLMs 的推理性能和一致性。第一阶段涉及使用由 LLMs 自动生成的逐步推理样本对 VLMs 进行监督微调。在第二阶段，我们进一步通过结合 LLMs 提供的反馈来增强训练过程，以产生高度一致和可靠的推理链。我们在推理性能和一致性方面经验上突出了我们框架的有效性。

Sep, 2023

一种基于预备知识库的常识推理教授预训练模型的初步方法

通过利用 ConceptNet 中的结构化知识，构造逻辑形式并生成常识性逻辑推理的多项选择题进行训练，我们提出了一种简单而有效的方法来教授预训练模型常识性推理，实验结果表明，这种训练可以使预训练模型在需要常识性推理的任务上表现稳定提升，特别是在少样本学习设置下。

Sep, 2019

GeomVerse：几何推理的大型模型的系统评估

大语言模型在多步数学推理方面表现出色，但包含文字和图像的数学推理问题需要评估视觉语言模型的推理能力。通过几何问题的镜头，我们通过多个角度评估视觉语言模型的推理能力。我们创建了一个合成的几何问题数据集，具有可控的难度级别，从而进行系统评估。我们的基准测试结果表明，这些模型在几何等主题的推理能力上并不如先前的基准测试所暗示的那样出色，特别是通过我们基准测试的多个深度级别构建，因为解决更深的问题需要更长的推理链而不是额外的记忆知识。我们释放这个数据集供进一步研究使用。

Dec, 2023