不要只听，动动脑筋：利用视觉常识解决非视觉任务

Feb, 2015

不要只听，动动脑筋：利用视觉常识解决非视觉任务

Don't Just Listen, Use Your Imagination: Leveraging Visual Common Sense for Non-Visual Tasks

Xiao Lin, Devi Parikh

TL;DR该论文探讨了图像中的视觉常识如何有助于文本任务，包括填空和视觉改写，并提出基于视觉的场景做为辅助实现对这些问题的回答，该方法表现优于基于文字的方案。

Abstract

Artificial agents today can answer factual questions. But they fall short on questions that require common sense reasoning. Perhaps this is because most existing common sense databases rely on text to learn and represent knowledge. But much of →

common sense reasoning common sense knowledge semantic common sense visual abstraction textual tasks

发现论文，激发创造

基于场景图的常识知识在文本环境中的应用

本文研究了在文本游戏中使用基于视觉数据集得到的常识推理有助于提高游戏 AI 效率的优势，对比了空间关系的统计信息并在常识推理任务中进行验证实验，结果表明该方法优于现有最先进的方法。

Oct, 2022

通过多图像生成改善语言模型中的视觉常识

基于多模态知识的常识推理是根本，我们介绍了一种方法来增强大型语言模型的视觉常识能力，该方法通过生成多个图像并将其与模型的决策过程相融合来提供综合的图像和文本知识。这种方法在不仅在视觉常识上，还在传统自然语言处理基准上优于现有基线模型。

Jun, 2024

CommonsenseVIS: 自然语言模型的常识推理能力可视化与理解

利用外部常识知识库将模型行为与人类知识对齐，并通过多层次可视化和交互式模型探索和编辑，帮助自然语言处理专家在不同场景中对模型的概念关系推理进行系统且可扩展的可视化分析。

Jul, 2023

超越语言：从图片中学习常识进行推理

本文提出了一种从图像中学习常识的新方法，利用双模态序列到序列模型进行场景布局生成任务，并在通感问题回答和代词消解领域实验中证明了新方法的有效性。

Oct, 2020

基于视觉的常识知识获取

CLEVER 是一种利用视觉感知中蕴含的 commonsense 知识，在不需要人类对图像实例进行注释的情况下，通过远程监督的多实例学习问题，从图像中提取 commonsense 知识的方法。实验结果表明，CLEVER 可以提取有质量的 commonsense 知识。

Nov, 2022

只用语言数据学习视觉任务，竟然没有图像！

本文探讨了如何从文本数据中学习计算机视觉领域所需的高层次技能，并将其转移到视觉任务中，同时提出探究对比模型嵌入空间中不同模态的系统差异，进一步理解和缓解这种关注的策略。实践证明，我们使用仅文本训练数据在图像标注、视觉蕴含、视觉问题回答和视觉新闻等四个代表性任务上建立的模型，性能表现接近仅使用图像训练数据建立的模型，尤其是针对图像标注和视觉蕴含任务的文本训练数据，有望超过 9 个百分点的提升。同时，我们还展示了多种样式的图像标注模型，这些模型使用的不是图像数据和人工策划的语言数据，而是来自于图书、网络或语言模型可用的文本数据。

Nov, 2022

超越深度：人类常识认知人工智能的范式转换

本篇论文呼吁 AI 的下一代要拥抱类人的 “黑暗” 的常识，以解决新的任务，提出 “少数据用于大任务” 的范式，FPICU 是认知 AI 的五个核心领域，是类人智能的 “暗物质”

Apr, 2020

在视觉对话中运用多结构常识知识进行推理

本文提出了一种基于多结构的常识知识的推理模型，通过句子级事实和图级事实表示外部知识，通过图形交互和变压器融合捕获相关的知识并将其融入视觉和语义特征中，已在 VisDial v1.0 和 VisDialCK 数据集上取得了有效的性能优于比较方法。

Apr, 2022

通过有针对性的常识基础提升神经故事生成

利用多任务学习和辅助训练信号，在创作故事时增强常识推理能力。

Aug, 2019

从识别到认知：视觉常识推理

该研究论文旨在推进计算机视觉模型的视觉常识推理能力。研究者针对这一目标，提出一项包含 290k 多选题的新数据集 VCR，并使用基于对抗匹配的方法进行添加问题。通过引入新的推理引擎 - Recognition to Cognition 网络（R2C），该文章对计算机视觉模型的性能进行了分析，并提出未来研究的方向。

Nov, 2018