IJCAIFeb, 2020
探索和提取跨模态信息以用于图像字幕生成
Exploring and Distilling Cross-Modal Information for Image Captioning
Fenglin Liu, Xuancheng Ren, Yuanxin Liu, Kai Lei, Xu Sun
TL;DR本研究提出基于 Transformer 的全局与局部信息探索与提炼方法,在跨模态视角下探究图像字幕生成,并在 COCO 测试集上取得了 129.3 的 CIDEr 分数。