ECCVJul, 2022
GRIT:使用双重视觉特征的更快更好的图像字幕转换器
GRIT: Faster and Better Image captioning Transformer Using Dual Visual Features
Van-Quang Nguyen, Masanori Suganuma, Takayuki Okatani
TL;DR本文提出了一个名为 GRIT 的纯 Transformer 神经架构,用于图像字幕生成,它可以有效地利用区域和网格这两种视觉特征来生成更好的字幕。在几项图像字幕基准测试中的实验结果表明,GRIT 在推理准确性和速度方面优于先前的方法。