Oct, 2022

学习组合视觉 - 语言神经模块用于图像字幕生成

TL;DR本文提出了一种基于 Collocate Visual-Linguistic Neural Modules (CVLNM) 的图像标题生成算法,其中包含四个编码器模块和一个解码器模块,并使用自注意力和基于词性的语法损失来提高鲁棒性和准确性,实验结果表明在 MS-COCO 数据集上取得了最新的 129.5 CIDEr-D 的表现。