图像字幕视觉语义关联数据集

Jan, 2023

Visual Semantic Relatedness Dataset for Image Captioning

Ahmed Sabir, Francesc Moreno-Noguer, Lluís Padró

TL;DR本论文介绍了一种文本视觉背景数据集，用于改进现代图像描述系统，通过融合与场景相关的文本信息，提高图像描述的准确性及语义关联性。

Abstract

Modern image captioning system relies heavily on extracting knowledge from images to capture the concept of a static story. In this paper, we propose a textual visual context dataset for captioning, in which the

image captioning textual visual context nlp coco captions semantic relation

发现论文，激发创造

图像 - 文本匹配的视觉语义推理

我们提出了一种简单而易于解释的推理模型，用于生成全局场景的主要对象和语义概念的可视化表示，该模型使用图卷积网络进行关联和推理，再使用门和记忆机制进行全局语义推理，选取判别信息并逐渐生成整个场景的表示；实验证明我们的方法在 MS-COCO 和 Flickr30K 数据集上取得了相对于最佳方法分别为 6.8％和 4.8％的图像检索和字幕检索的新的最佳效果，Flickr30K 数据集上分别提高了 12.6％和 5.8％的图像检索和字幕检索。

Sep, 2019

用于字到句的视觉语义相似度在标题生成的应用：得到的经验教训

本文提出一种改进图像 - 字幕生成系统的方法，通过从视觉上下文的角度修订语言生成输出的 beam search，采取视觉语义量化概念，在单词和句子级别上匹配与图像相关的信息来选择最相关的输出作为字幕。该方法可作为后处理方法应用于任何字幕系统中。

Sep, 2022

探索语义关系的非配对图像字幕生成

本文提出了一种跨越视觉和语言领域的高级语义信息桥接技术，以实现无配对图像说明，并引入了基于语义概念关系探索的解决方案 ——Semantic Relationship Explorer，能够有效地提高图像说明的质量，并且在 MSCOCO 数据集下总体得分比配对数据集高出 8%。

Jun, 2021

一张图片相当于五个句子吗？对于图像 - 文本匹配的语义进行新的探究

本文提出了两种关联度度量指标，并提出一种新的策略用于定义语义自适应边缘，并将其用于标准三元组损失函数的优化中，从而在有限的训练数据情况下得到了很大的改进。

Oct, 2021

从字幕到视觉概念的转换和回归

本文提出了一种用于自动生成图像描述的新方法：使用从图像标题数据集中直接学习的视觉探测器、语言模型和多模式相似模型。

Nov, 2014

新闻图片标题生成的视觉感知上下文建模

新闻图像字幕生成的自动化方法通过设计面部命名模块和检索策略以优化视觉信息处理，并超越之前的最佳性能表现。

Aug, 2023

更好地利用图片描述提升图像字幕质量

本文提出了一种新的图像字幕架构，通过构建以字幕为导向的视觉关系图以及利用弱监督多实例学习引入有益的归纳偏差来增强图像表示和字幕生成，实现多模态问题解决和优化。在 MSCOCO 数据集上进行广泛实验，证明该框架在多种评估指标下取得了业内最优表现。

Jun, 2020

场景文本视觉问答

本文介绍了一个新数据集，即 ST-VQA，旨在强调利用图像中文本信息的重要性。我们使用这个数据集定义了一系列难度不断增加的任务，需要利用图像中提供的上下文阅读场景文本以进行推理和生成适当的答案。我们提出了一个新的评估指标来考虑推理错误以及文本识别模块的缺陷，同时提出一系列基线方法。

May, 2019

对图像字幕生成所需的语言单词与视觉语义单位进行对齐

本文提出了一种结合图卷积网络（GCN）的视觉语义单元对象相互作用的图形语义和几何建模方法，利用上下文门控注意力模块将当前单词与视觉语义单元对齐，针对 MS-COCO 图像字幕数据集，与现有方法相比报告了更好的结果。

Aug, 2019

通过语言表达视觉关系

该研究利用编码器 - 解码器结构和关系注意力等特征，提出了一种新的在两个图像之间生成关系说明的模型，并透过对新收集及公开的数据集进行实验，证明其比现有的各种基准线和方法都要好。

Jun, 2019