CVPROct, 2020

多任务三元流网络实现密集关系图像字幕生成

TL;DR本篇研究提出了一种新的图像描述任务:密集关系字幕,该任务旨在生成多个字幕,涉及视觉场景中对象之间的关系信息。通过使用多任务三重流网络(MTTSNet)训练识别 POS(主客观谓宾分类)并生成字幕,同时使用明确的关系模块来改进它的表现。该模型在大型数据集和多个指标上经过了广泛的实验分析,能够生成更多样化、更丰富的字幕,并将其应用于整体图像字幕,场景图生成和检索任务。