semantic sparsity is a common challenge in structured visual classification problems; when the output space is complex, the vast majority of the possible predictions are rarely, if ever, seen in the training set.
本文提出了Grounded Situation Recognition(GSR)这一任务,研究如何利用图像来生成结构化的语义摘要,重点关注图像中的活动、相关主体的角色和范围、以及实例的语义示踪;通过在Situation With Groundings(SWiG)数据集上测试,在端到端训练中联合预测场景和示踪方面,相对独立训练的性能提高了8%到32%之间的相对增益。