IJCAIJul, 2020

使用组合神经模块网络进行图像字幕生成

TL;DR本文介绍了一种基于组合神经模块网络和分层框架的图像字幕方案,探索了自然语言的组成和顺序性,选择性地关注输入图像中每个检测到的对象的不同模块,以包括计数和颜色等特定描述,提出模型优于现有模型,结果表明我们的组成模块网络能够有效地生成准确和详细的图像字幕。