基于知识库的图像视觉常识发现

Feb, 2024

VCD: Knowledge Base Guided Visual Commonsense Discovery in Images

Xiangqing Shen, Yurun Song, Siwei Wu, Rui Xia

TL;DR本研究通过借鉴自然语言处理中常识知识库 ConceptNet 的方法，系统定义了视觉常识的各种类型，并提出了一种新的任务 - 视觉常识发现（VCD），旨在提取图像中不同对象包含的细粒度常识。通过构建包括超过 10 万张图像和 1400 万个对象 - 常识对的数据集（VCDD），并提出了一种将视觉 - 语言模型与指令调整相结合的生成模型（VCDM），其在 VCD 中表现出色，尤其在隐含常识发现方面优于 GPT-4V。VCD 的价值进一步得到了两个下游任务的应用验证，包括视觉常识评估和视觉问答。数据和代码在 GitHub 上可获得。

Abstract

visual commonsense contains knowledge about object properties, relationships, and behaviors in visual data. Discovering visual commonsense can provide a more comprehensive and richer understanding of images, and

visual commonsense commonsense discovery fine-grained commonsense generative model visual question answering

发现论文，激发创造

从识别到认知：视觉常识推理

该研究论文旨在推进计算机视觉模型的视觉常识推理能力。研究者针对这一目标，提出一项包含 290k 多选题的新数据集 VCR，并使用基于对抗匹配的方法进行添加问题。通过引入新的推理引擎 - Recognition to Cognition 网络（R2C），该文章对计算机视觉模型的性能进行了分析，并提出未来研究的方向。

Nov, 2018

拓宽视野：Geo-Diverse 视觉常识推理

本文构建了 Geo-Diverse Visual Commonsense Reasoning（GD-VCR）数据集，以测试视觉 - 语言模型理解文化和地理位置特定常识的能力。通过研究两种最先进的视觉 - 语言模型，我们发现它们对于非西方地区的性能显着低于西方地区，并分析了性能差异背后的原因。

Sep, 2021

CommonsenseVIS: 自然语言模型的常识推理能力可视化与理解

利用外部常识知识库将模型行为与人类知识对齐，并通过多层次可视化和交互式模型探索和编辑，帮助自然语言处理专家在不同场景中对模型的概念关系推理进行系统且可扩展的可视化分析。

Jul, 2023

基于视觉的常识知识获取

CLEVER 是一种利用视觉感知中蕴含的 commonsense 知识，在不需要人类对图像实例进行注释的情况下，通过远程监督的多实例学习问题，从图像中提取 commonsense 知识的方法。实验结果表明，CLEVER 可以提取有质量的 commonsense 知识。

Nov, 2022

如何利用通用常识本体提升基于学习的图像检索性能

本文探讨了如何利用 MIT 的通用本体库 ConceptNet，改进最新视觉系统的性能，实验表明，通用常识本体库可以通过过滤选择有意义的视觉关系，提升视觉推理任务的表现。

May, 2017

通过知识图谜题提升视觉 - 语言模型的常识能力

本文提出了一种名为 DANCE 的数据增强策略，使用知识图谱线性化技术向现有 VL 数据集中注入常识知识，从而提高 VL 模型的常识能力，并首次提出了基于检索的常识诊断基准进行细致实验验证。

Nov, 2022

Visual Genome：使用众包密集图像注释连接语言和视觉

该论文介绍了 Visual Genome 数据集，它包含了约 100K 的图像和图像描述、对象、属性、关系和问题答案的密集注释，旨在解决计算机在图像描述、问答等认知任务中的性能瓶颈问题。

Feb, 2016

ImageNetVC：1000 个 ImageNet 类别上的零样本视觉常识评估

本文利用人为标注的数据集 ImageNetVC，探究了先前被作为通用接口使用的预训练语言模型（PLMs）和其带视觉增强的对应模型（VaLMs）的视觉常识知识掌握情况及其影响因素。同时，通过研究大规模模型的因素，提供了对视觉常识知识丰富的自然语言模型发展的启示。

May, 2023

在视觉对话中运用多结构常识知识进行推理

本文提出了一种基于多结构的常识知识的推理模型，通过句子级事实和图级事实表示外部知识，通过图形交互和变压器融合捕获相关的知识并将其融入视觉和语义特征中，已在 VisDial v1.0 和 VisDialCK 数据集上取得了有效的性能优于比较方法。

Apr, 2022

基于视觉常识的人类中心 grounding 中的人物查找

该研究介绍了一个新的人类常识任务，人类中心共识基础，并创建了一个数据集 HumanCog，并开发了一种强有力的基线方法，强调了丰富的视觉常识和多模式集成的重要性，并提出了未来的工作方向。

Dec, 2022