拓宽视野：Geo-Diverse 视觉常识推理

EMNLPSep, 2021

拓宽视野：Geo-Diverse 视觉常识推理

Broaden the Vision: Geo-Diverse Visual Commonsense Reasoning

Da Yin, Liunian Harold Li, Ziniu Hu, Nanyun Peng, Kai-Wei Chang

TL;DR本文构建了 Geo-Diverse Visual Commonsense Reasoning（GD-VCR）数据集，以测试视觉 - 语言模型理解文化和地理位置特定常识的能力。通过研究两种最先进的视觉 - 语言模型，我们发现它们对于非西方地区的性能显着低于西方地区，并分析了性能差异背后的原因。

Abstract

commonsense is defined as the knowledge that is shared by everyone. However, certain types of commonsense knowledge are correlated with culture

commonsense culture geo-diverse vision-and-language dataset

发现论文，激发创造

ViCor：用大型语言模型桥接视觉理解和常识推理

我们的研究工作探索了预训练的视觉语言模型（VLM）和大型语言模型（LLM）在视觉常识推理（VCR）中的协同能力。我们将 VCR 问题分为视觉常识理解（VCU）和视觉常识推断（VCI）两个方面。在 VCU 方面，预训练的 VLM 展示出强大的跨数据集泛化能力。然而，在 VCI 方面，VLM 面临困难。我们提出了名为 ViCor 的协作方法，在 VCI 中通过 LLM 主动引导 VLM 集中关注和收集相关的视觉元素来支持潜在的常识推断。我们的方法在两个 VCR 基准数据集上得到了评估，并且在不需要领域内监督微调的所有其他方法之上取得了优越的表现。

Oct, 2023

基于知识库的图像视觉常识发现

本研究通过借鉴自然语言处理中常识知识库 ConceptNet 的方法，系统定义了视觉常识的各种类型，并提出了一种新的任务 - 视觉常识发现（VCD），旨在提取图像中不同对象包含的细粒度常识。通过构建包括超过 10 万张图像和 1400 万个对象 - 常识对的数据集（VCDD），并提出了一种将视觉 - 语言模型与指令调整相结合的生成模型（VCDM），其在 VCD 中表现出色，尤其在隐含常识发现方面优于 GPT-4V。VCD 的价值进一步得到了两个下游任务的应用验证，包括视觉常识评估和视觉问答。数据和代码在 GitHub 上可获得。

Feb, 2024

从识别到认知：视觉常识推理

该研究论文旨在推进计算机视觉模型的视觉常识推理能力。研究者针对这一目标，提出一项包含 290k 多选题的新数据集 VCR，并使用基于对抗匹配的方法进行添加问题。通过引入新的推理引擎 - Recognition to Cognition 网络（R2C），该文章对计算机视觉模型的性能进行了分析，并提出未来研究的方向。

Nov, 2018

超越语言：从图片中学习常识进行推理

本文提出了一种从图像中学习常识的新方法，利用双模态序列到序列模型进行场景布局生成任务，并在通感问题回答和代词消解领域实验中证明了新方法的有效性。

Oct, 2020

本地化符号化知识蒸馏用于视觉常识模型

使用局部可见的常识模型来训练视觉 - 语言模型以支持图像内部推理。

Dec, 2023

通过知识图谜题提升视觉 - 语言模型的常识能力

本文提出了一种名为 DANCE 的数据增强策略，使用知识图谱线性化技术向现有 VL 数据集中注入常识知识，从而提高 VL 模型的常识能力，并首次提出了基于检索的常识诊断基准进行细致实验验证。

Nov, 2022

通过多图像生成改善语言模型中的视觉常识

基于多模态知识的常识推理是根本，我们介绍了一种方法来增强大型语言模型的视觉常识能力，该方法通过生成多个图像并将其与模型的决策过程相融合来提供综合的图像和文本知识。这种方法在不仅在视觉常识上，还在传统自然语言处理基准上优于现有基线模型。

Jun, 2024

跨语言文化下的视觉推理

通过引入印尼语、汉语、斯瓦希里语、泰米尔语和土耳其语等语言，构建了一个新的 ImageNet-style 分层协议，从本地化的角度推荐相关概念和图像，建立了一个用于多文化及多语言视觉和语言推理的数据集 MaRVL，并列举出一系列现代模型的基线，发现其跨语言性能显著滞后于英语的监督性能。

Sep, 2021

视觉 - 语言 Transformer 是否具备视觉常识？对 VCR 的经验研究

此研究旨在通过提供合理的理由作为预测答案的原因，解释并回答视觉场景问题。尽管 Vision-Language Transformers 在表现上令人满意，但它们存在预训练效果有限、意外的语言偏见、模型架构受限和忽视重要的物体 - 标签相关性等缺点。因此，从数据集、评估指标和训练技巧等角度，本研究对于未来研究提出了一些方向，有望让研究人员重新审视 VCR 的直觉和目标，并帮助克服视觉推理中的挑战。

May, 2024

从地方概念到普适性：评估视觉语言模型的多元文化理解

通过引入 GlobalRG 基准，涵盖了检索跨文化图像的普遍概念和在图像中定位文化特定概念这两个具有挑战性的任务，我们评估了各种模型在不同文化背景下的表现，并强调了在视觉语言模型中增强多元文化理解的必要性。

Jun, 2024