Apr, 2016

迁移学习行为与人 - 物交互问题解答模型

TL;DR本文提出了一种利用局部和全局上下文的深度卷积神经网络模型来预测静态图像中的人类活动标签,实现了对两个数据集上数百个标签的最先进性能。我们使用多实例学习来处理缺乏对单个人实例级别的监督的情况,并使用加权损失来处理不平衡的训练数据。此外,我们展示了如何利用这些数据集训练的专业特征来提高视觉问答任务(Visual Question Answering)的准确性,并取得了对人活动和人 - 物关系两种问题的改进。