跟踪、检查、重复:一种基于 EM 算法的无监督跟踪方法
本文提出了一种基于卷积神经网络 (CNN) 的完全无监督的运动分割方法,借鉴了期望最大化算法 (EM) 框架用于设计不需要地面真值或手动标注的运动分割神经网络的损失函数和训练过程,能够通过单一推断步骤为任何看不见的光流场提供分割,并能有效地处理多个运动。
Jan, 2022
我们提供了一种基于运动线索的半监督目标检测方法,结合启发式聚类方法和物体跟踪器,使用运动物体的伪标签作为监督信号,在 Lidar 数据中训练三维物体检测器。我们通过利用场景流估计中的最新进展获取点轨迹,并从中提取长期的、与类别无关的运动模式。通过在信息传递网络的上下文中重新思考相关聚类,我们学习将这些运动模式分组以聚类点到物体实例。通过估计物体的完整范围,我们获得每个扫描的三维边界框,并用它们来监督 Lidar 物体检测网络。我们的方法不仅优于先前的启发式方法(57.5 AP,相比之前的方法提高了 14 个百分点),更重要的是,我们证明了可以在不同数据集上使用伪标签训练目标检测器。
Feb, 2024
本文提出了一种自监督学习框架,从视频中估算单个对象的运动和单眼深度,并将对象运动建模为六个自由度刚体变换;此外,该方法还使用实例分割掩码引入对象信息,并通过引入新的几何约束损失项消除运动预测的尺度歧义,实验结果表明,该框架在不需要外部注释的情况下处理数据并能够捕捉对象的运动,与自监督研究方法相比,在 3D 场景流预测方面有更好的表现,对动态区域的视差预测也有所贡献。
Dec, 2019
本文针对对象发现这一问题,通过选择动态对象并使用自编码器提取图像特征并加入来自运动分割的弱学习信号,成功地从复杂场景中分离出运动和静止的动态对象,相较于其它抽象特征的方法在 KITTI 数据集上有更好的表现。
Mar, 2022
本文提出了一种基于神经网络的视频分割方法,用于区分视频帧中独立运动的物体,并利用对象运动、外观和时间一致性等多个信息源,通过对数据进行训练得到模型,经过评估表明该模型在 DAVIS、Freiburg-Berkeley 运动分割数据集和 SegTrack 等数据集上表现良好。
Dec, 2017
该研究提出了一种视频基于物体为中心的模型,通过适应物体为中心的插槽以及构建完整物体原型来处理遮挡,仅需要稀疏的检测标签进行物体定位和特征绑定,无需 ID 标签,并通过自我监督的期望最大化损失函数实现物体关联,实验证明了该方法在物体为中心的学习领域的卓越性能。
Sep, 2023
使用自我监督训练改进现有的有监督模型,通过将数据标记和训练分为两个不同的阶段,并结合简单的技术来稠密化和重平衡伪标签,从而在实际视频中实现可靠的增益,适用于短期(基于流)和长距离(多帧)像素跟踪。
Jan, 2024
本文提出了一项新颖的自监督学习模型,用于从视频中估计连续的自我运动。该模型通过观察 RGBD 或 RGB 视频流来学习估计相机运动,并确定正确预测未来帧外观的平移和旋转速度。我们的方法不同于其他自我监督结构运动的最近工作,其使用连续运动表述和刚体运动领域的表示,而不是直接预测相机参数。为了使估计在具有多个移动物体的动态环境中具有鲁棒性,我们介绍了一个简单的双组分分割过程,将刚性背景环境与动态场景元素分离。我们在几个基准自我运动数据集上展示了自我训练模型的最新准确性,并突出了该模型提供超强的旋转精度和对非刚性场景运动的处理能力。
Jun, 2018
本研究介绍了一种基于运动线索的分割方法,使用 Transformer 网络结构,采用自我监督的方法进行训练,结果在公共基准测试中表现优异,证明在现有视频分割模型中,对于运动线索的重要性,以及对视觉外观存在潜在偏差的可能性。
Apr, 2021