Dec, 2019

为什么我不能在商场跳舞?学习减缓动作识别中的场景偏见

TL;DR我们提出了一种减轻场景偏差从而实现视频表示学习的方法,通过在行动分类的交叉熵损失中增加场景类型的对抗性损失和关于人类角色面罩混淆的损失,来鼓励学习能够在没有证据时无法预测场景类型和正确的行动的表示。我们的结果表明,相对于没有进行去偏置处理的基准模型,我们的预训练模型在行动分类、时间定位和时空行动检测等三个不同任务上均得到了一致的提升。