ECCVJul, 2022

GRIT:使用双重视觉特征的更快更好的图像字幕转换器

TL;DR本文提出了一个名为 GRIT 的纯 Transformer 神经架构,用于图像字幕生成,它可以有效地利用区域和网格这两种视觉特征来生成更好的字幕。在几项图像字幕基准测试中的实验结果表明,GRIT 在推理准确性和速度方面优于先前的方法。