CVPRDec, 2019

基于网格式记忆的 Transformer 图像字幕生成

TL;DR使用 M$^2$ - Meshed Transformer with Memory for Image Captioning 的架构,改进了图像编码和语言生成步骤;通过测试,证明该架构在单模型和集成配置上达到了新的最佳状态,尤其是在描述训练集中看不见的对象时表现优异。