GRIT：使用双重视觉特征的更快更好的图像字幕转换器

ECCVJul, 2022

GRIT：使用双重视觉特征的更快更好的图像字幕转换器

GRIT: Faster and Better Image captioning Transformer Using Dual Visual Features

Van-Quang Nguyen, Masanori Suganuma, Takayuki Okatani

TL;DR本文提出了一个名为 GRIT 的纯 Transformer 神经架构，用于图像字幕生成，它可以有效地利用区域和网格这两种视觉特征来生成更好的字幕。在几项图像字幕基准测试中的实验结果表明，GRIT 在推理准确性和速度方面优于先前的方法。

Abstract

Current state-of-the-art methods for image captioning employ region-based features, as they provide object-level information that is essential to describe the content of images; they are usually extracted by an object detector such as Faster R-CNN. However, they have several issues, su

image captioning region-based features transformer detr-based detector visual features

发现论文，激发创造

使用 GRIT 模型进行巴西葡萄牙语的图像字幕生成

这项研究提出了用于巴西葡萄牙语的图像标题模型的早期开发工作。我们采用了 GRIT（基于网格和区域的图像标题 Transformer）模型来完成这项工作。GRIT 是一种仅使用 Transformer 的神经架构，有效地利用两个视觉特征来生成更好的标题。GRIT 方法作为一种更高效的生成图像标题的提案出现。在这项工作中，我们调整了 GRIT 模型以在巴西葡萄牙语数据集上进行训练，以获得巴西葡萄牙语的图像标题方法。

Feb, 2024

基于端到端 Transformer 的图像描述模型

本文提出了一种基于 Transformer 的图像描述模型，使用 SwinTransformer 提取网格级特征，一阶段完成训练并实现 end-to-end 生成描述，得到了 MSCOCO 数据集上 state-of-the-art 的表现。

Mar, 2022

将语义概念注入端到端图像字幕生成

本文提出了一种全新的视觉变换器（Vision transformer-based）图像标题模型 ViTCAP，使用网格表示而不提取区域特征。为了提高性能，引入了基于 Vision Transformer 的概念令牌网络（CTN），可以高效地预测语义概念，并将其整合到端到端的标题生成中，从而实现竞争性能，同时简化了结构。

Dec, 2021

双层协作变压器用于图像字幕生成

本研究提出一种新型双层协作变换器（DLCT）网络，结合传统网格特征和目标检测网络提取的描述性区域特征，利用双向自注意力和局部约束交叉关注模块来加强区域和网格特征间的语义语境关系，进一步提高图像字幕生成的性能，并在 MS-COCO 数据集上达到新的最先进性能。

Jan, 2021

视频字幕的时空动态与语义属性增强视觉编码

本篇文章提出了一种视觉特征编码技术，使用门控循环单元（GRUs）生成语义丰富的视频字幕，并在 MSVD 和 MSR-VTT 数据集上创造了新的 METEOR 和 ROUGE_L 度量标准的最新技术水平。

Feb, 2019

基于 GRU 注意机制的图像字幕生成的深度神经网络框架

本研究旨在利用预先训练的卷积神经网络，结合注意力机制和循环神经网络，将图像特征与语言模型相结合，实现图像描述生成。实验结果与现有先进方法相比，具有竞争性的性能。

Mar, 2022

图像字幕生成：物体到文字的转换

本文介绍了一种名为 “Object Relation Transformer” 的图像描述模型，该模型在编码器 - 解码器架构中显式地整合了有关输入检测对象的空间关系，以几何关注的方式建模。结果表明，这种几何关注对图像描述非常重要，并在 MS-COCO 数据集上的各种标准评估指标上均有改进。

Jun, 2019

预训练的 CNN 与基于 GRU 的注意力机制在图像标题生成中的比较研究

使用深度神经网络和 GRU 注意机制对图像进行描述生成的研究提出了一种深度神经网络框架，通过多个预训练的卷积神经网络作为编码器从图像中提取特征，并使用 GRU 语言模型作为解码器生成描述性句子。通过将 Bahdanau 注意模型与 GRU 解码器集成，我们的方法提高了性能，并在 MSCOCO 和 Flickr30k 数据集上展示出与最先进方法相比具有优势的分数。我们提出的框架可以弥合计算机视觉和自然语言之间的差距，并可以扩展到特定领域。

Oct, 2023

使用 Transformer 进行视觉定位

该论文提出了一种基于 Transformer 编码器 - 解码器的视觉 grounding 方法，通过在不损伤位置定位能力的前提下，在文本描述的指导下学习语义鉴别的视觉特征，具有强大的文本 - 视觉语境语义捕捉能力。实验结果表明，在保持快速推理速度的同时，该方法在五个基准上优于现有的提案 - free 方法。

May, 2021

基于图像 Transformer 的图像字幕生成

本文介绍了一种基于 transformer 架构、包括编码和解码变换器的模型 —— 图片 transformer，它通过适应图片的结构提高了自动图像描述的性能，并在 MSCOCO 离线和在线测试基准中取得了新的最佳成绩。

Apr, 2020