CVPRMar, 2021

具有动词特定语义角色的类人可控图像标题生成

TL;DR提出了新的控制信号,基于 Controllable Image Captioning (CIC),包括顶点特定语义角色 (VSR),通过基于地面的语义角色标记模型 (GSRL) 训练来确定所有实体对于每个角色,借助语义结构计划器(SSP)学习像人类一样的描述性语义结构,并使用角色转移字幕模型生成字幕。