AAAIMar, 2022

基于端到端 Transformer 的图像描述模型

TL;DR本文提出了一种基于 Transformer 的图像描述模型,使用 SwinTransformer 提取网格级特征,一阶段完成训练并实现 end-to-end 生成描述,得到了 MSCOCO 数据集上 state-of-the-art 的表现。