EMNLPNov, 2023

通过预测结构化概念提升图像字幕生成

TL;DR本文介绍了一个基于结构化概念预测器的图像描述生成方法,通过构建带有权重的图卷积网络,可以有效地捕捉概念间关系,并区分性地学习各个概念,从而更好地结合图像和文本信息生成描述。经过广泛实验验证了该方法及其各个模块的有效性。