IJCAIFeb, 2020

探索和提取跨模态信息以用于图像字幕生成

TL;DR本研究提出基于 Transformer 的全局与局部信息探索与提炼方法,在跨模态视角下探究图像字幕生成,并在 COCO 测试集上取得了 129.3 的 CIDEr 分数。