本文提出了一种适用于移动摄像头、自适应于不同数据源的无监督多任务自学习算法,通过结合性地学习实例级追踪器,由此获得调整后的类别级物体检测器。
Jun, 2014
本文介绍了一种使用大量未标记数据进行无监督学习的方法,通过使用数十万个未标记的web视频作为数据集,设计了一个具有排名损失函数的Siamese-Triplet网络,用于深度卷积神经网络的无监督学习,可在不使用ImageNet的情况下,获得52%的mAP的性能,并展示了此非监督网络在其它任务中表现出竞争性。
May, 2015
本研究介绍了一种从未标记的视频中进行无监督学习的新方法,通过引入一种面向物体的时间相干性方法来促进学习具有相似表征的物体,并在多个基准数据集上展示了与竞争无监督方法相比显著的准确度提高。
Dec, 2016
本文提出一种基于弱监督学习的目标检测和检索方法,通过对视频进行自然主体提取,使用对比采样处理背景拒绝,使用聚类评分算法解决高噪声标签问题,针对11个手动标注目标在5000帧中的评估结果与弱监督方法进行比较并提供上限参考。
May, 2019
本研究提出了使用视频自然增广的无标签视频学习方法,可以有效地提取单个图像的表示,并可用于各种时间和非时间任务中。
Mar, 2020
提出了STEVE,一种基于无监督学习的视频物体聚焦模型,通过使用基于Transformer的图像解码器进行重建观察来实现了对复杂和自然视频的有效性验证,并取得了显著的改进效果。
May, 2022
提出了一种名为 VITO 的简单范式,通过对动态视频帧的自我监督学习,有效地学习图像表示,该方法实现了视频预训练模型在语义分割和对象检测等任务上与ImageNet预训练模型性能相近甚至更好的表现,未来视频预训练有望成为学习图像表示的新默认方法。
Oct, 2022
本文提出了一种基于无监督学习、自主学习特征的物体中心学习方法,以及如何使用时间特征相似性损失来发现运动目标,并在视频数据集上取得了最先进的表现。
Jun, 2023
该研究探讨了以特征预测作为无监督学习的独立目标,并介绍了V-JEPA,一个仅使用特征预测目标进行训练的视觉模型集合,无需预训练图像编码器、文本、负样本、重建或其他监督方式。我们的研究结果表明,通过预测视频特征进行学习可以得到性能良好的通用视觉表示,适用于运动和外观相关的任务,无需调整模型参数,如冻结骨干网络。我们最大的模型,即仅使用视频进行训练的ViT-H/16,在Kinetics-400上获得81.9%的准确率,在Something-Something-v2上获得72.2%的准确率,在ImageNet1K上获得77.9%的准确率。
Feb, 2024
通过采用对象为中心的视角,本文提出了一种新颖高效的图像到视频适应策略。结合可学习查询的槽注意力,将每帧图像压缩为一组紧凑的对象令牌,并通过对象时间交互层建模对象在时间上的状态变化。通过两种新颖的对象级损失,我们的方法在行动识别基准测试上以较少的可调参数(仅为完全微调模型的5%和高效微调方法的50%)达到了最先进的性能。此外,我们的模型在零样本视频对象分割中表现良好,无需进一步的重新训练或对象注释,证明了对象为中心的视频理解的有效性。
Jul, 2024