通过语言表达视觉关系

ACLJun, 2019

Expressing Visual Relationships via Language

Hao Tan, Franck Dernoncourt, Zhe Lin, Trung Bui, Mohit Bansal

TL;DR该研究利用编码器 - 解码器结构和关系注意力等特征，提出了一种新的在两个图像之间生成关系说明的模型，并透过对新收集及公开的数据集进行实验，证明其比现有的各种基准线和方法都要好。

Abstract

Describing images with text is a fundamental problem in vision-language research. Current studies in this domain mostly focus on single image captioning. However, in various real applications (e.g., image editing, difference interpretation, and retrieval), generating →

image captioning relational captions image editing encoder-decoder architecture relational attention

发现论文，激发创造

利用神经场景图生成器学习视觉关系先验用于图像文本匹配和图像字幕生成

通过结合神经场景图生成器和最先进的模型，我们的实验表明用于促进语言到视觉关系的关系特征能够显著改进标准的 Flickr30K 和 MSCOCO 基准测试，在端到端的视觉和语言应用中捕获视觉关系。

Sep, 2019

自然语言引导下的视觉关系检测

本研究提出了一种自然语言引导的框架来解决视觉关系检测任务中对象对之间关系分类的问题，并使用双向循环神经网络以及语义连接来预测参与关系的对象之间的语义连接。该方法在 Visual Relationship Detection 和 Visual Genome 数据集上取得了最佳状态，特别是在未预测关系的情况下。

Nov, 2017

探索语义关系的非配对图像字幕生成

本文提出了一种跨越视觉和语言领域的高级语义信息桥接技术，以实现无配对图像说明，并引入了基于语义概念关系探索的解决方案 ——Semantic Relationship Explorer，能够有效地提高图像说明的质量，并且在 MSCOCO 数据集下总体得分比配对数据集高出 8%。

Jun, 2021

在文本引导的图像生成中测试关系理解

本研究使用了 15 种基本物质和社会关系对最近的文本引导图像生成模型 DALL-E2 进行了系统的经验性考察，发现只有大约 22％的图像与基本关系提示匹配。研究结果表明，当前的图像生成模型尚未掌握涉及简单对象和代理人的基本关系，本文从认知和计算两个角度，提出可能的改进方向。

Jul, 2022

从展示到描述：深度学习图像字幕化综述

本文综合研究图像描述中的视觉编码、文本生成、训练策略、数据集和评估指标等方面，量化比较多个相关的最前沿方法，以识别体系结构和训练策略中最具影响力的技术创新并探讨问题的许多变体和开放挑战，旨在为理解现有文献和强调计算机视觉和自然语言处理领域的未来方向提供工具。

Jul, 2021

使用场景描述的语义建模改进视觉关系检测

通过将语义模型与视觉统计模型相结合，并应用多种先进的链接预测方法，本研究证明链接预测方法可以提高对于视觉关系检测的结果，并在 Stanford Visual Relationship 数据集上取得了优于当今最先进方法的性能。

Sep, 2018

组合对象关系和属性进行图像 - 文本匹配

本研究中，我们通过引入场景图表示图像标题，利用图注意力网络构建了一个双编码器的图像 - 文本匹配模型，能高效地编码物体 - 属性和物体 - 物体的语义关系，通过提供对图神经网络的强关系归纳偏置进行学习。我们的模型在两个重要的图像 - 文本检索基准数据集 Flickr30K 和 MSCOCO 上进行实验，证明了相对于计算成本高的交叉注意方法，CORA 在召回得分上具有优势，同时实现了双编码器的快速计算速度。

Jun, 2024

基于综合图像 - 语言线索的短语定位和视觉关系检测

该论文提出了一种利用大量语言和视觉线索定位或落实图像中短语的框架，该系统在 Flickr30k 实体数据集的短语定位和斯坦福 VRD 数据集的视觉关系检测上取得了最先进的性能。

Nov, 2016

利用辅助文本进行深度识别未见视觉关系

提出一种融合图像和文本信息用于视觉关系检测和场景图生成的深度模型，通过共同的文本图像表示方法实现文本补充图像数据，结果表明图像中没有的文本信息可以显著提高模型性能

Oct, 2019

图像 - 文本匹配的视觉语义推理

我们提出了一种简单而易于解释的推理模型，用于生成全局场景的主要对象和语义概念的可视化表示，该模型使用图卷积网络进行关联和推理，再使用门和记忆机制进行全局语义推理，选取判别信息并逐渐生成整个场景的表示；实验证明我们的方法在 MS-COCO 和 Flickr30K 数据集上取得了相对于最佳方法分别为 6.8％和 4.8％的图像检索和字幕检索的新的最佳效果，Flickr30K 数据集上分别提高了 12.6％和 5.8％的图像检索和字幕检索。

Sep, 2019