挑战常识：WHOOPS！一个基于视觉语言的合成与组合图像基准测试

Mar, 2023

挑战常识：WHOOPS！一个基于视觉语言的合成与组合图像基准测试

Breaking Common Sense: WHOOPS! A Vision-and-Language Benchmark of Synthetic and Compositional Images

Nitzan Bitton-Guetta, Yonatan Bitton, Jack Hessel, Ludwig Schmidt, Yuval Elovici...

TL;DR介绍了一种名为 WHOOPS！的新视觉常识数据集和基准，其中包括几种面向该数据集的任务，包括图像字幕，跨模式匹配，视觉问答和解释生成任务。结果表明，目前最先进的 AI 模型仍然落后于人类在 WHOOPS！上的表现，希望这个数据集能够激发开发更强的视觉常识推理能力的 AI 模型的灵感。

Abstract

Weird, unusual, and uncanny images pique the curiosity of observers because they challenge commonsense. For example, an image released during the 2022 world cup depicts the famous soccer stars Lionel Messi and Cristiano Ronaldo playing chess, which playfully violates our expectation that their competition should occur on the football field. Humans can easily

visual commonsense dataset ai models image generation explanation generation

发现论文，激发创造

A-OKVQA: 利用世界知识的视觉问答基准

介绍了 A-OKVQA 数据集，它包含了约 25000 个多样化的问题，需要广泛的常识和世界知识才能回答，相对于现有的基于知识的 VQA 数据集，这些问题通常不能通过简单地查询知识库来回答，而是需要对图像中所描绘的场景进行某种形式的常识推理，该数据集对几种最先进的视觉语言模型进行了基础性能测试。

Jun, 2022

ROME：评估预训练的视觉 - 语言模型在超越视觉常识推理上的表现

评估最新的预训练视觉 - 语言模型在解释反直觉情境方面的推理能力，揭示大多数模型在此方面仍然相当无能。

Oct, 2023

通过合成基准评估大型视觉 - 语言模型对现实世界复杂性的理解

该研究评估了大型视觉语言模型（LVLMs）区分人工生成图像和人类生成图像的能力。通过引入一种新的自动化基准构建方法来进行评估。实验证明 LVLMs 在某种程度上能够区分图像类型，但存在向右的偏差，并且相对于人类表现出明显较差。为了深入研究这些发现，我们使用人工智能开发了一个自动化基准构建过程。该过程包括主题检索、叙事脚本生成、错误嵌入和图像生成，从而创建了一组包含有意错误的文本 - 图像对。通过构建两个可比较的基准，我们验证了我们的方法。本研究凸显了 LVLMs 在现实世界理解方面的优势和劣势，并推进了基准构建技术，提供了一种可扩展和自动化的人工智能模型评估方法。

Jun, 2024

CommonsenseQA 2.0：通过游戏化揭示 AI 的局限性

本研究提出以益智游戏为框架进行数据构建来解决自然语言理解模型面临的问题，使用这种方法构建出包含 14,343 个 yes/no 问题的 CommonsenseQA 2.0，该数据集对比现有的深度学习模型难度更大（例如 T5-based Unicorn，精度达到 70.2%，而 GPT-3 只有 52.9%），但与人类表现相差甚远（94.1%）。

Jan, 2022

IllusionVQA：一个为视觉语言模型设计的具有挑战性的视错觉数据集

Vision Language Models are tested on the IllusionVQA dataset, revealing their performance and weaknesses in comprehension and soft localization tasks, particularly in the context of optical illusions and In-Context Learning.

Mar, 2024

Bongard-HOI: 用于人 - 物互动视觉推理的几支学习基准评测

该研究提出了一种视觉推理基准测试，名为 Bongard-HOI，用于组合学习自然图像中的人 - 物交互。该基准测试模拟实际场景中的一些情况，通过 few-shot instance 和难例的设计，将正负图像仅在动作标签上发生分歧，使得仅仅识别物体类别就无法完成测试，对于当今的视觉识别模型来说是具有相当大的挑战。

May, 2022

用于学习和评估视觉常识技能的 “某某” 视频数据库

本研究收集了超过 100,000 个视频，建立了 something-something 数据库，并描述了 crowd-sourcing 数据所面临的挑战。该数据库包含了一些需要理解物理世界、具有常识性的视频预测任务。

Jun, 2017

CoSIm：针对反事实场景想象的常识推理

本文介绍了一个名为 Commonsense Reasoning for Counterfactual Scene Imagination (CoSIm) 的新任务 / 数据集，该任务 / 数据集旨在评估 AI 系统推理场景变化想象的能力。这篇论文提供了 3.5K 个高质量且具有挑战性的数据实例，其中包含各种复杂的场景变化类型，并且提出了一种基于视觉语言 Transformer 的基线模型和消融研究。

Jul, 2022

Winoground 的困难在哪里？调查视觉语言组合的失败

通过一系列实验和数据分析，发现视觉和语言模型中融合文字和视觉表示的挑战可能不在于组合性语言理解，而在于其他能力，如常识推理、低分辨率图像中小物体的定位等，并提出数据扩充等解决方案。

Nov, 2022

常识 T2I 挑战：文本到图像生成模型能否理解常识？

我们提出了一个新的任务和基准，用于评估文本到图像生成模型在现实生活中产生符合常识的图像的能力，我们将其称为常识 - T2I。给定两个对抗性的文本提示，其中包含一组相同的动作词但存在细微差异，例如 “没有电的灯泡” 与 “有电的灯泡”，我们评估 T2I 模型是否能进行视觉常识推理，即生成与 “灯泡未点亮” 和 “灯泡点亮” 相符的图像。常识 - T2I 提出了一个对抗性挑战，提供成对的文本提示和预期输出。该数据集由专家精心策划，并用细粒度标签进行注释，例如常识类型和预期输出的可能性，以帮助分析模型行为。我们对各种最先进的 T2I 模型进行了评测，令人惊讶的发现，图像合成与真实生活照片之间仍存在很大差距 —— 即使是 DALL-E 3 模型在常识 - T2I 上的准确率也仅为 48.92％，稳定的扩散 XL 模型仅能达到 24.92％的准确率。我们的实验证明 GPT 强化的提示无法解决这一挑战，并对可能导致此类不足的原因进行了详细分析。我们的目标是将常识 - T2I 作为 T2I 常识检查的高质量评估基准，促进实际生活图像生成的进展。

Jun, 2024