Aug, 2020

为视频物体分割提出三维卷积的论点

TL;DR本文提出了一种基于3D全卷积神经网络的编码-解码网络结构,将其应用于视频中的显著对象分割。尝试使用全3D卷积来处理外观和运动信息从而实现密集视频预测,并通过3D全局卷积层和3D细化模块进行编码和解码操作。作者将其应用于DAVIS'16无监督,FBMS和ViSal数据集基准测试中,结果表明其效果优于现有状态艺术,同时速度更快,能够高效地学习空间 - 时间特征并产生高质量的视频分割掩码。