MMAug, 2021

使用 Transformer 和课程学习的双重图卷积网络用于图像字幕生成

TL;DR本文提出了针对图像标题生成问题的 Dual Graph Convolutional Networks (Dual-GCN) 模型,使用 Transformer 和 Curriculum Learning 技术,在单张图片内有效捕获物体间的关系和多张图像之间的特征信息以生成更为准确的标题,实验结果表明该模型在 MS COCO 数据集上表现突出,达到了 BLEU-1 得分 82.2 和 BLEU-2 得分 67.6。