AAAIMar, 2022
基于端到端 Transformer 的图像描述模型
End-to-End Transformer Based Model for Image Captioning
Yiyu Wang, Jungang Xu, Yingfei Sun
TL;DR本文提出了一种基于 Transformer 的图像描述模型,使用 SwinTransformer 提取网格级特征,一阶段完成训练并实现 end-to-end 生成描述,得到了 MSCOCO 数据集上 state-of-the-art 的表现。