CVPRApr, 2022

利用偏序关系引导注意力进行图像字幕生成

TL;DR本文提出了一种引导式的注意力网络机制,将图像的空间特征、主题的高级信息以及生成的字幕的时间上下文嵌入到一个有序的嵌入空间中进行训练,采用成对的排序目标函数,该模型在 MSCOCO 数据集上表现出与众多最先进模型相媲美的竞争力。