Feb, 2024

基于知识库的图像视觉常识发现

TL;DR本研究通过借鉴自然语言处理中常识知识库 ConceptNet 的方法,系统定义了视觉常识的各种类型,并提出了一种新的任务 - 视觉常识发现(VCD),旨在提取图像中不同对象包含的细粒度常识。通过构建包括超过 10 万张图像和 1400 万个对象 - 常识对的数据集(VCDD),并提出了一种将视觉 - 语言模型与指令调整相结合的生成模型(VCDM),其在 VCD 中表现出色,尤其在隐含常识发现方面优于 GPT-4V。VCD 的价值进一步得到了两个下游任务的应用验证,包括视觉常识评估和视觉问答。数据和代码在 GitHub 上可获得。