基于端到端 Transformer 的图像描述模型

AAAIMar, 2022

基于端到端 Transformer 的图像描述模型

End-to-End Transformer Based Model for Image Captioning

Yiyu Wang, Jungang Xu, Yingfei Sun

TL;DR本文提出了一种基于 Transformer 的图像描述模型，使用 SwinTransformer 提取网格级特征，一阶段完成训练并实现 end-to-end 生成描述，得到了 MSCOCO 数据集上 state-of-the-art 的表现。

Abstract

CNN-LSTM based architectures have played an important role in image captioning, but limited by the training efficiency and expression ability, researchers began to explore the CNN-Transformer based models and achieved great success. Meanwhile, almost all recent works adopt Faster R-CNN as the backbone encoder to extract region-level features from given image

transformer-based model image captioning swintransformer grid-level features end-to-end training

发现论文，激发创造

CNN+CNN：用于图像字幕生成的卷积解码器

本文在图像字幕生成方面，提出了一种仅利用卷积神经网络生成字幕的框架，通过并行计算，训练速度比基于 LSTM 的模型快 3 倍，同时在 MSCOCO 图像字幕数据集上获得了比 LSTM 更高的评估得分。

May, 2018

CPTR: 图像标注的全变压器网络

本研究提出了 CaPtion TransformeR （简称 CPTR）这一基于序列到序列（sequence-to-sequence) 预测方法的图片标注任务模型。与传统的 “CNN+Transformer” 设计范式不同，本研究的模型从一开始就可以在每个编码层中对全局上下文进行建模，并完全摒弃了卷积层。在 MSCOCO 数据集上进行的大量实验证明了 CPTR 模型的有效性，本研究还提供了全 Transformer 架构中编码器中各个 Patch 之间的自注意力以及解码器中单词到 Patch 的注意力等详细的可视化效果。

Jan, 2021

基于 CNN 编码器 - 解码器框架的压缩图像字幕生成

我们的项目旨在通过开发结合卷积神经网络（CNN）和编码 - 解码模型的自动图像字幕架构来解决图像字幕的挑战。我们还进行了性能比较，研究了多种预训练 CNN 模型的性能变化，并探索了频率正则化技术在压缩 “AlexNet” 和 “EfficientNetB0” 模型方面的整合，旨在在更节省资源的同时保持模型的有效性。

Apr, 2024

基于多视角视觉表示的多模态变压器用于图像字幕生成

利用多模态 Transformer 模型并结合多视角视觉特征来进行图像描述，这种方法能够同时捕捉到图像内部和图像与文本之间的关系，相较于业内先前方法显著提升了效果，是图像描述任务的最新成果。

May, 2019

基于图像 Transformer 的图像字幕生成

本文介绍了一种基于 transformer 架构、包括编码和解码变换器的模型 —— 图片 transformer，它通过适应图片的结构提高了自动图像描述的性能，并在 MSCOCO 离线和在线测试基准中取得了新的最佳成绩。

Apr, 2020

图像字幕的循环融合网络

本文提出了一种使用多个编码器的循环融合网络 (RFNet) 来处理图像字幕生成问题，RFNet 可以利用多个编码器的输出之间的相互作用，生成新的、紧凑而且信息丰富的表示，验证实验表明，RFNet 对于图像字幕生成问题是有效的，并且取得了最新的最好结果。

Jul, 2018

端到端视频字幕生成

本文提出了采用端到端训练的方法来实现视频描述生成，并在微软研究视频描述数据集 (MSVD) 和微软视频到文本数据集 (MSR-VTT) 上取得了最新的最优表现。

Apr, 2019

图像字幕紧凑双向 Transformer

本文提出了一种可实现双向上下文隐式和显式利用以及可并行执行解码器的紧凑型双向变形器模型，具有句子级集成方法和单词级集成方法，经试验证明，该模型在图像字幕生成方面具有最新的最先进的效果。

Jan, 2022

预训练的 CNN 与基于 GRU 的注意力机制在图像标题生成中的比较研究

使用深度神经网络和 GRU 注意机制对图像进行描述生成的研究提出了一种深度神经网络框架，通过多个预训练的卷积神经网络作为编码器从图像中提取特征，并使用 GRU 语言模型作为解码器生成描述性句子。通过将 Bahdanau 注意模型与 GRU 解码器集成，我们的方法提高了性能，并在 MSCOCO 和 Flickr30k 数据集上展示出与最先进方法相比具有优势的分数。我们提出的框架可以弥合计算机视觉和自然语言之间的差距，并可以扩展到特定领域。

Oct, 2023

GRIT：使用双重视觉特征的更快更好的图像字幕转换器

本文提出了一个名为 GRIT 的纯 Transformer 神经架构，用于图像字幕生成，它可以有效地利用区域和网格这两种视觉特征来生成更好的字幕。在几项图像字幕基准测试中的实验结果表明，GRIT 在推理准确性和速度方面优于先前的方法。

Jul, 2022