CPTR: 图像标注的全变压器网络

Jan, 2021

CPTR: Full Transformer Network for Image Captioning

Wei Liu, Sihan Chen, Longteng Guo, Xinxin Zhu, Jing Liu

TL;DR本研究提出了 CaPtion TransformeR （简称 CPTR）这一基于序列到序列（sequence-to-sequence) 预测方法的图片标注任务模型。与传统的 “CNN+Transformer” 设计范式不同，本研究的模型从一开始就可以在每个编码层中对全局上下文进行建模，并完全摒弃了卷积层。在 MSCOCO 数据集上进行的大量实验证明了 CPTR 模型的有效性，本研究还提供了全 Transformer 架构中编码器中各个 Patch 之间的自注意力以及解码器中单词到 Patch 的注意力等详细的可视化效果。

Abstract

In this paper, we consider the image captioning task from a new sequence-to-sequence prediction perspective and propose CaPtion transformer

image captioning sequence-to-sequence transformer cnn mscoco dataset

发现论文，激发创造

基于图像 Transformer 的图像字幕生成

本文介绍了一种基于 transformer 架构、包括编码和解码变换器的模型 —— 图片 transformer，它通过适应图片的结构提高了自动图像描述的性能，并在 MSCOCO 离线和在线测试基准中取得了新的最佳成绩。

Apr, 2020

基于端到端 Transformer 的图像描述模型

本文提出了一种基于 Transformer 的图像描述模型，使用 SwinTransformer 提取网格级特征，一阶段完成训练并实现 end-to-end 生成描述，得到了 MSCOCO 数据集上 state-of-the-art 的表现。

Mar, 2022

基于多视角视觉表示的多模态变压器用于图像字幕生成

利用多模态 Transformer 模型并结合多视角视觉特征来进行图像描述，这种方法能够同时捕捉到图像内部和图像与文本之间的关系，相较于业内先前方法显著提升了效果，是图像描述任务的最新成果。

May, 2019

借助过去的一点点帮助：用于图像字幕的原型记忆网络

本文介绍了一种通过原型记忆模型，在处理其他训练样本时，可以执行对激活进行注意力操作的网络，并通过 COCO 数据集上的实验进行了评估。

Aug, 2023

从序列到序列的角度重新思考使用 Transformers 进行语义分割

本文提出了一种新的语义分割方法，使用纯 Transformer 编码图像为序列的方式，通过全局上下文模型和一个简单的解码器生成强大的分割模型，称为 SETR，取得多项最新的测试结果。

Dec, 2020

将语义概念注入端到端图像字幕生成

本文提出了一种全新的视觉变换器（Vision transformer-based）图像标题模型 ViTCAP，使用网格表示而不提取区域特征。为了提高性能，引入了基于 Vision Transformer 的概念令牌网络（CTN），可以高效地预测语义概念，并将其整合到端到端的标题生成中，从而实现竞争性能，同时简化了结构。

Dec, 2021

ConvTransformer: 用于视频帧合成的卷积变换器网络

本文提出了一种名为 ConvTransformer 的深层卷积神经网络结构，通过注意力机制学习序列数据之间的依赖关系，用于视频帧合成，相较于传统的卷积 LSTM 方法可实现更好的并行计算效果。

Nov, 2020

一张图像胜过 16*16 个单词：规模下的图像识别变形金刚

本文研究使用 Transformer 代替 CNN 进行图像分类，实现在计算资源少的情况下，取得比目前卷积网络更好的识别结果，从而在计算机视觉上取得突破。

Oct, 2020

基于 Transformer 的注意力网络用于连续像素智能预测

本文提出的 TransDepth 是一种结合了卷积神经网络和 Transformers 的像素预测模型，使用基于门的注意力机制避免了网络对局部细节的损失，并在三个具有挑战性的数据集上取得了最先进的性能。

Mar, 2021

图像字幕紧凑双向 Transformer

本文提出了一种可实现双向上下文隐式和显式利用以及可并行执行解码器的紧凑型双向变形器模型，具有句子级集成方法和单词级集成方法，经试验证明，该模型在图像字幕生成方面具有最新的最先进的效果。

Jan, 2022