AAAIDec, 2020

在 Transformer 网络中利用层间和层内的全局表示来改进图像字幕生成

TL;DR该研究介绍了一种名为 GET 的全局增强变压器,能够提取更全面的全局表示,并自适应地引导解码器生成高质量的图像说明。