May, 2018

基于损失加权和对象交互的文本弱监督视频对象定位

TL;DR本文研究弱监督视频对象定位问题,并探讨了在图像域中使用的多实例学习方法在视频域中的扩展性。作者提出了一种将弱监督信号从视频层面传递到帧层面的方法,并将对象之间的交互作为定位的文本指导。在新收集的基准测试YouCook2-BoundingBox上,该模型取得了竞争基线方法无法匹敌的表现。