一次性进行的无监督运动分割:对视频进行平滑长期建模
本研究介绍了一种基于运动线索的分割方法,使用 Transformer 网络结构,采用自我监督的方法进行训练,结果在公共基准测试中表现优异,证明在现有视频分割模型中,对于运动线索的重要性,以及对视觉外观存在潜在偏差的可能性。
Apr, 2021
本文提出了一种基于卷积神经网络 (CNN) 的完全无监督的运动分割方法,借鉴了期望最大化算法 (EM) 框架用于设计不需要地面真值或手动标注的运动分割神经网络的损失函数和训练过程,能够通过单一推断步骤为任何看不见的光流场提供分割,并能有效地处理多个运动。
Jan, 2022
无标注图像分割和定位是自主机器人学习将图像解析为个体对象的关键能力,本研究提出了一种新的损失函数,利用无标注视频中的光流信息辅助自我监督视觉转换器的特征优化,实现了无标注语义分割的优于现有技术的性能。
Jul, 2023
本文提出了一种基于时空动态模型的无监督光流估计方法,使用视图合成的自我监督学习来提供可靠的运动先验信息,利用邻帧的运动先验来改善光流估计中遮挡区域的监督,采用自我监督知识蒸馏来让模型理解物体在连续动态环境中的运动模式,实验证明该方法在无监督光流估计中取得了最先进的性能并具有记忆开销优势。
Apr, 2023
本文提出了一种无监督表征学习方法,可以紧凑地编码视频中的运动依赖。利用 RNN Encoder-Decoder 框架预测序列化的原子级 3D 流,以有效地减少学习框架的复杂性。该方法可以用于运动分类和识别等多种应用。
Jan, 2017
通过在动态视频的对象分割中集成场景全局运动知识,我们展示了从其他领域的视频理解中转移知识并结合大规模学习可以提高复杂环境下的鲁棒性。我们提出了一种半监督视频对象分割架构,利用运动理解中的现有知识进行更平滑的传播和更准确的匹配。同时,我们使用大规模的 MOSE 2023 数据集训练模型,该方法在各种复杂场景中展现了强大的性能。
May, 2024
本文提出了基于光流和边缘线索的新型显着性估计技术和新型邻域图,用于解决快速运动,运动模糊和遮挡等视频分割的挑战,在 DAVIS,SegTrack v2 和 FBMS-59 数据集中取得了超越深度学习方法的最新成果。
Sep, 2018
无监督视频对象分割是一项旨在在没有关于对象的外部指导的情况下检测视频中最显著的对象的任务。为了充分利用显著对象通常与背景具有不同的运动特征的属性,最近的方法共同使用从光流图提取的运动线索与从 RGB 图像提取的外观线索。然而,由于光流图通常与分割掩码非常相关,网络在网络训练期间容易过度依赖运动线索。因此,这种两流方法容易受到混淆的运动线索的干扰,使其预测不稳定。为了缓解这个问题,我们设计了一种将运动线索视为可选的新型运动作为选项网络。在网络训练期间,随机提供 RGB 图像而不是光流图给运动编码器,以隐式降低网络的运动依赖性。由于学习到的运动编码器可以处理 RGB 图像和光流图,因此可以根据所使用的信息源的运动输入生成两种不同的预测。为了充分利用这个特性,我们还提出了一种自适应输出选择算法来在测试时采用最佳的预测结果。我们提出的方法在所有公共基准数据集上都具有最先进的性能,甚至保持了实时推理速度。
Sep, 2023
我们在视频中对象的分割问题上提出了一种新的管道(FODVid),它基于使用流引导图割和时间一致性的思想来引导分割输出,通过设计一个融合了帧内外观和流相似性以及帧间对象时间持续性的分割模型,我们的方法在无监督的视频对象分割中取得了与现有顶级方法相当的结果(在 mIoU 范围内相差约 2 个单位),我们技术的简单性和效果为视频领域的研究开辟了新的研究途径。
Jul, 2023
通过在事件数据和光流信息上利用自监督变换器,我们提出的方法克服了事件驱动运动分割的限制,消除了人工注释的需求,并减少了参数调整问题,实现了在多个数据集上与现有方法相比的最新性能,适用于高动态航空平台上的高清事件摄像头在城市环境中处理各种类型的运动并处理任意数量的移动对象。
May, 2024