运动分析的鲁棒视觉跟踪
本文介绍了一种将 “tracking-by-detection” 引入视频对象分割的方法,通过提出一种新的时间聚合网络和新的动态时间演进模板匹配机制,成功将分割与跟踪相一致,并在 DAVIS 基准测试中取得了新的最优表现。
Jul, 2020
该研究提出了一种新的视频对象分割方式,它由轻量级模块和分割模型两部分组成。在推理阶段使用快速优化技术学习目标外观模型,以预测出粗略但鲁棒的目标分割,然后将粗略的分数转化成高质量的分割掩模,该模式具有快速、易于训练、在有限的训练数据情况下仍然高效等优点。在挑战性的 YouTube-VOS 和 DAVIS 数据集上进行了广泛实验,其结果与现有技术相比具有更高的帧率和优异的性能。
Feb, 2020
该研究提出了一种新的、自动化的视频物体分割方法,通过集成一种可区分的少量样本学习模块,提高了分割精度,实现了当前 YouTube-VOS 2018 数据集的最新最佳分数,并使相对改进率达到了 2.6%以上。
Mar, 2020
视频目标分割是计算机视觉中的重要任务,研究了切割模型的灵感、对象记忆、内存帧总数和输入分辨率对分割性能的影响,并在复杂视频目标分割(MOSE)数据集上验证了我们方法的有效性,实验结果表明在测试集上达到了 0.8139 的 J&F 得分,在处理具有挑战性的 VOS 场景中具有强大的鲁棒性和准确性。
Jun, 2024
本论文提出了一种视频目标分割 (VOS) 的新的一次性训练框架,只需要一个标记的帧来训练,并适用于大多数最先进的 VOS 网络。通过双向训练,我们得到了一个令人满意的 VOS 网络,仅使用了 YouTube-VOS 和 DAVIS 数据集的一个标记的帧,达到了与完全标记的数据集训练的结果相当的效果。
May, 2024
无监督视频对象分割是一项旨在在没有关于对象的外部指导的情况下检测视频中最显著的对象的任务。为了充分利用显著对象通常与背景具有不同的运动特征的属性,最近的方法共同使用从光流图提取的运动线索与从 RGB 图像提取的外观线索。然而,由于光流图通常与分割掩码非常相关,网络在网络训练期间容易过度依赖运动线索。因此,这种两流方法容易受到混淆的运动线索的干扰,使其预测不稳定。为了缓解这个问题,我们设计了一种将运动线索视为可选的新型运动作为选项网络。在网络训练期间,随机提供 RGB 图像而不是光流图给运动编码器,以隐式降低网络的运动依赖性。由于学习到的运动编码器可以处理 RGB 图像和光流图,因此可以根据所使用的信息源的运动输入生成两种不同的预测。为了充分利用这个特性,我们还提出了一种自适应输出选择算法来在测试时采用最佳的预测结果。我们提出的方法在所有公共基准数据集上都具有最先进的性能,甚至保持了实时推理速度。
Sep, 2023
介绍了一种基于 Transformer 的视频对象分割方法,称为 Sparse Spatiotemporal Transformers (SST),使用稀疏注意力抽取每个对象的每个像素表示,同时具有解决运动分割所需的对应关系计算的归纳偏差。SST 模型在 YouTube-VOS 和 DAVIS 2017 上达到了有竞争力的结果,并具有比现有技术更好的可扩展性和鲁棒性。
Jan, 2021
通过在动态视频的对象分割中集成场景全局运动知识,我们展示了从其他领域的视频理解中转移知识并结合大规模学习可以提高复杂环境下的鲁棒性。我们提出了一种半监督视频对象分割架构,利用运动理解中的现有知识进行更平滑的传播和更准确的匹配。同时,我们使用大规模的 MOSE 2023 数据集训练模型,该方法在各种复杂场景中展现了强大的性能。
May, 2024
本文提出了一种从边界框级别追踪开始的视频对象分割方法,该方法包括一个基于 R-CNN 的检测器、一个时间一致性重新评分算法,以及将边界框转换为分割掩模的 Box2Seg 网络。在 DAVIS 2017 和 YouTube-VOS 数据集上的实验表明,该方法优于所有未进行第一帧微调的方法。此外,该方法还得到了优化,可在不增加运行时间的情况下学习跟踪过程中对象的分割,且运行速度比先前最好的 VOS 方法快达 45 倍。
Apr, 2019
本文提出了三种新策略来抑制背景干扰器的出现,并使用一种新的半监督视频物体分割技术,使得所提出的模型在公共基准数据集上具有与现有技术方法可比拟的性能表现,同时还能够实现实时性能。
Jul, 2022