CVPRApr, 2018

使用像素度量学习的快速视频目标分割

TL;DR该研究致力于解决在给定用户注释指向感兴趣的物体的情况下的视频对象分割问题。作者提出了一种基于学习嵌入空间的像素级检索方法,并使用全卷积网络作为嵌入模型,使用修改后的三元组损失进行训练。作者提出的方法支持不同类型的用户输入,如在第一帧中的分割遮罩(半监督情况下),或者一个稀疏的点击点集合(交互情况下),并在计算成本上获得了很好的结果。在半监督场景中,该方法达到了与现有技术相比竞争性的结果,但计算成本仅为每帧 275 毫秒。在交互式场景中,该方法能够实时响应用户的每个输入,并达到了与竞争方法相当的质量,但交互程度要少得多。