交互与传播网络实现快速用户引导的视频目标分割
本文通过对传输提取方法的实证研究,设计了端到端的记忆网络,对核心方法、输入线索、多物体组合和训练策略等方面进行了详细的剖析研究,在 DAVIS 2017 数据集上取得了 76.1 的显著性能提升。
Jul, 2019
本文介绍一种基于人工交互的视频对象分割方法,使用深度学习技术进行交互式图像分割,并应用于视频对象分割中。在 GrabCut 数据集上,我们的方法以仅需 3.8 次点击的平均值获得 90%的 IOU,与当前最先进的方法相比,具有更高的准确性。此外,我们研究了用户的使用模式和提供的纠正类型等,为进一步改进交互式视频分割提供重要的见解。
Dec, 2017
本文提出了一种基于深度学习的实例级对象分割框架,其中包括使用 ResNet-101 进行前景 / 背景分割的通用模型训练,基于该通用模型接受带标注对象的训练数据,通过迭代学习实例级模型的方法以及使用空间传播网络和滤波器对分割结果进行进一步优化,以实现不同视频中的实例级对象分割。
Sep, 2017
本研究提出了一种使用深度循环网络实现同时分割和追踪视频中物体的方法,结合了时间传播和重新识别模块,以及基于注意力的循环蒙版传播方法,取得了在 DAVIS 2017 基准测试(test-dev 集合)上最高的分割和边缘测量平均值(68.2),优于同一分区上获胜解决方案的全球平均值(66.1)
Mar, 2018
本研究提出了一种称为记忆聚合网络的统一框架,以更高效的方式解决交互式视频对象分割的问题,通过将交互和传播操作整合到单个网络中,并提出一种简单而有效的记忆聚合机制,大大提高了发现有挑战性的感兴趣对象的鲁棒性。在 DAVIS Challenge 2018 基准验证集上进行了广泛的实验,特别地,我们的 MA-Net 在没有任何更多附加的部分下达到了 76.1% 的 J@60 分数,超过了最先进的技术 2.7% 以上。
Mar, 2020
该研究致力于解决在给定用户注释指向感兴趣的物体的情况下的视频对象分割问题。作者提出了一种基于学习嵌入空间的像素级检索方法,并使用全卷积网络作为嵌入模型,使用修改后的三元组损失进行训练。作者提出的方法支持不同类型的用户输入,如在第一帧中的分割遮罩(半监督情况下),或者一个稀疏的点击点集合(交互情况下),并在计算成本上获得了很好的结果。在半监督场景中,该方法达到了与现有技术相比竞争性的结果,但计算成本仅为每帧 275 毫秒。在交互式场景中,该方法能够实时响应用户的每个输入,并达到了与竞争方法相当的质量,但交互程度要少得多。
Apr, 2018
提出了一种基于交互的显著性目标分割框架 MiVOS,由交互模块和传播模块组成;其中交互模块实现用户交互和目标分割的转换,而传播模块则采用一种新颖的 top-k 过滤策略,结合时空记忆进行时序传播,并提出了一种差异感知模块以有效地将前后交互的掩模融合,最终在 DAVIS 数据集上取得了优异的表现。
Mar, 2021
我们提出了一种无需训练的提示跟踪框架,将稀疏点和框跟踪相结合,采用交叉循环时空模块从多次交互中自适应地聚合引用信息,实现了在流行的 VOS 数据集上稳定的零样本视频分割结果,保持了性能和交互时间之间的良好权衡。
Jun, 2024
通过视频预测方法合成新的训练样本并引入边界标签松弛技术,使模型对标注噪声和传播伪影更加鲁棒,实现在 Cityscapes 数据集上 83.5%、CamVid 上 82.9% 的 mIoUs 并在 KITTI 语义分割测试集上取得 72.8% 的 mIoU,超过 ROB 挑战 2018 年的获奖模型。
Dec, 2018