IJCAIJun, 2021

TCIC: 图像描述中的主题概念跨语言与视觉学习

TL;DR本文提出了一种将主题概念引入图像字幕生成的框架,使用记忆向量和 Transformer with Theme Nodes (TTN) 处理主题概念并进行图像和文本表示的重构,通过两种表示学习方法实现跨模态学习,实验结果表明该方法比其他最先进的模型更为有效。