Jan, 2021

CPTR: 图像标注的全变压器网络

TL;DR本研究提出了 CaPtion TransformeR (简称 CPTR)这一基于序列到序列(sequence-to-sequence) 预测方法的图片标注任务模型。与传统的 “CNN+Transformer” 设计范式不同,本研究的模型从一开始就可以在每个编码层中对全局上下文进行建模,并完全摒弃了卷积层。在 MSCOCO 数据集上进行的大量实验证明了 CPTR 模型的有效性,本研究还提供了全 Transformer 架构中编码器中各个 Patch 之间的自注意力以及解码器中单词到 Patch 的注意力等详细的可视化效果。