通过常识推理和知识，利用场景描述图将图像转换为句子

Nov, 2015

通过常识推理和知识，利用场景描述图将图像转换为句子

From Images to Sentences through Scene Description Graphs using Commonsense Reasoning and Knowledge

Somak Aditya, Yezhou Yang, Chitta Baral, Cornelia Fermuller, Yiannis Aloimonos

TL;DR本文提出了一种利用视觉场景中的场景描述图（SDG）从图像中提取语言描述的方法，该方法通过自动构建的知识库应用视觉和推理的方式构建 SDG，并使用自然语言处理的图像注释进行的 “常识” 知识库和来自资源（如 WordNet）的词汇本体知识。通过针对 Flickr8k、Flickr30k 和 MS-COCO 数据集的基于 Amazon Mechanical Turk（AMT）的评估，我们的方法获得的自动构建句子的 SDGs 通常比基于最新的最先进的图像标题方法更相关和全面的描述了图像。我们的图像 - 句子对齐评估结果也与最新的最先进方法相当。

Abstract

In this paper we propose the construction of linguistic descriptions of images. This is achieved through the extraction of scene description graphs (SDGs) from visual scenes using an automatically constructed

linguistic descriptions scene description graphs commonsense reasoning knowledge base image annotations

发现论文，激发创造

SGEITL: 基于场景图增强的图像 - 文本学习，用于视觉常识推理

该论文提出了一种场景图增强的图像 - 文本学习框架，其中利用视觉场景图结构进行常识推理，通过多跳图变压器实现模型结构的正则化，引入了一种利用文本注释进行域相关的视觉场景图训练和生成的弱监督学习方法并在 VCR 和其他任务中进行了广泛的实验，发现其显着提高了性能并证明了每个提出的组件的有效性。

Dec, 2021

基于场景图的常识知识在文本环境中的应用

本文研究了在文本游戏中使用基于视觉数据集得到的常识推理有助于提高游戏 AI 效率的优势，对比了空间关系的统计信息并在常识推理任务中进行验证实验，结果表明该方法优于现有最先进的方法。

Oct, 2022

从场景图生成图像

提出了一种利用场景图生成图像的模型，其中包括图形卷积来处理输入图形、预测对象的边界框和分割掩模来计算场景布局，并使用级联细化网络将布局转换为图像，训练对抗鉴别器来确保生成的图像具有逼真度。

Apr, 2018

超越语言：从图片中学习常识进行推理

本文提出了一种从图像中学习常识的新方法，利用双模态序列到序列模型进行场景布局生成任务，并在通感问题回答和代词消解领域实验中证明了新方法的有效性。

Oct, 2020

学习视觉通识以实现强健场景图生成

论文提出了一种通过获取视觉常识来改善场景图生成模型的鲁棒性的方法，并使用 Transformer 模型结合场景图结构训练了 GLAT 模型，该模型可以纠正明显的错误。通过实验证明，该模型比其他方法更好地学习了视觉常识，并提高了最先进场景图生成模型的准确性。

Jun, 2020

利用知识图谱提高图像字幕生成的性能

本文探讨了使用抓取通用或常识性知识的知识图谱来增强最先进的图像字幕生成方法从图像中提取的信息，实验结果表明，利用从知识图谱中提取的信息的最先进方法，在诸如 MS COCO 等多个基准数据集上，可以比仅依赖于从图像中提取的信息的方法实现显著更好的性能，其中性能用 CIDEr-D 评估。

Jan, 2019

在视觉对话中运用多结构常识知识进行推理

本文提出了一种基于多结构的常识知识的推理模型，通过句子级事实和图级事实表示外部知识，通过图形交互和变压器融合捕获相关的知识并将其融入视觉和语义特征中，已在 VisDial v1.0 和 VisDialCK 数据集上取得了有效的性能优于比较方法。

Apr, 2022

利用外部知识和图像重建的场景图生成

本文提出了一种利用外部知识和图像重建损失的新型场景图生成算法，提取外部常识知识以改进场景图的可推广性，并通过在场景图生成网络上引入辅助图像重建路径来解决嘈杂对象注释的偏差问题，全面实验证明我们的框架可以生成更好的场景图，并在 “视觉关系检测” 和 “视觉基因组” 两个基准数据集上实现了最先进的性能。

Apr, 2019

检索、字幕、生成：视觉基础为文本生成模型增强常识

本研究探讨了利用图像中的多模态信息增强文本生成 Transformer 模型通用知识的有效方法。我们使用 BART 和 T5 进行了实验，并通过 VisCTG 方法成功地改善了通用知识、流畅性和特定性等问题的基线文本生成模型。

Sep, 2021

运用场景知识推进视觉连接：基准与方法

本文提出了一个新的基准数据集 SK-VG，其中图像内容和指代表达不足以确定目标对象，迫使模型在长篇场景知识上具备推理能力。我们提出了两种方法来接受三元类型的输入，前者在图像查询交互之前将知识嵌入图像特征，后者利用语言结构来辅助计算图像文本匹配。通过大量实验证明了所提方法的可行性，并展示了他们取得的有希望的结果，但仍有改进的空间，包括性能和可解释性。

Jul, 2023