AAAIJan, 2021

双层协作变压器用于图像字幕生成

TL;DR本研究提出一种新型双层协作变换器(DLCT)网络,结合传统网格特征和目标检测网络提取的描述性区域特征,利用双向自注意力和局部约束交叉关注模块来加强区域和网格特征间的语义语境关系,进一步提高图像字幕生成的性能,并在 MS-COCO 数据集上达到新的最先进性能。