Mar, 2023

基于视觉关系的图像字幕的多模态奖励

TL;DR研究提出了一种基于融合图像场景图中提取的视觉关系信息和空间特征图的深度神经网络架构,同时引入一种多模态奖励函数,用于通过语言和视觉相似性的结合优化模型,在 MSCOCO 数据集上表明该方法的有效性并超越了多种最先进的图像字幕算法。