Jul, 2017

从视频标签和伪标注中本地化动作

TL;DR本文提出了一种使用视觉线索代替手动点注释的伪注释,引入了五种伪注释,并提出了一个自动选择和组合它们的相关性度量,从而实现只通过分类标签确定视频中动作的时空位置的算法。在具有挑战性的行动定位数据集上的彻底评估显示,我们达到了与完全盒子监督结果相当的结果。我们还展示了伪注释如何在测试期间被利用来改善弱监督和强监督本地化器。