Dec, 2021

将语义概念注入端到端图像字幕生成

TL;DR本文提出了一种全新的视觉变换器(Vision transformer-based)图像标题模型 ViTCAP,使用网格表示而不提取区域特征。为了提高性能,引入了基于 Vision Transformer 的概念令牌网络(CTN),可以高效地预测语义概念,并将其整合到端到端的标题生成中,从而实现竞争性能,同时简化了结构。