通过跟踪视频裁剪进行无监督视觉表征学习

CVPRMay, 2021

通过跟踪视频裁剪进行无监督视觉表征学习

Unsupervised Visual Representation Learning by Tracking Patches in Video

Guangting Wang, Yizhou Zhou, Chong Luo, Wenxuan Xie, Wenjun Zeng...

TL;DR本文旨在通过使用追踪作为代理任务，设计了一个 Catch-the-Patch（CtP）游戏，让 3D-CNN 模型学习图像表示，以帮助视频相关任务的完成。经过广泛实验，CtP 预训练特征与其他视频预训练方法相比具有更优异的性能。

Abstract

Inspired by the fact that human eyes continue to develop tracking ability in early and middle childhood, we propose to use tracking as a proxy task for a →

computer vision tracking pretraining video-related tasks 3d-cnn model

发现论文，激发创造

无监督视觉表示学习：基于上下文预测

该研究探讨了利用空间上下文作为丰富的视觉表征的监督信号的方法。通过从每个图像中提取随机配对的路径来训练卷积神经网络，用于预测第二个路径相对于第一个路径的位置，从而实现对目标的识别，并证明该方法在性能上优于其他算法。

May, 2015

针对自监督视觉变换器的补丁级别表示学习

本文设计了一种称为 SelfPatch 的简单而有效的视觉预训练任务，利用 ViT 的特性，在无需人工注释的情况下提高不同类型视觉任务的性能，通过训练神经网络对各种图像的无监督学习来实现。

Jun, 2022

利用视频进行无监督学习的视觉表示

本文介绍了一种使用大量未标记数据进行无监督学习的方法，通过使用数十万个未标记的 web 视频作为数据集，设计了一个具有排名损失函数的 Siamese-Triplet 网络，用于深度卷积神经网络的无监督学习，可在不使用 ImageNet 的情况下，获得 52% 的 mAP 的性能，并展示了此非监督网络在其它任务中表现出竞争性。

May, 2015

从视觉观察中学习可操作的表征

本文研究了使用自我监督学习来学习连续控制任务的对抗学习方法。通过将多个帧联合嵌入到嵌入空间中，我们扩展了时间对比网络（TCN），从而能够更准确地编码位置和速度属性。我们证明了这种方法在强化学习任务中有效，可以通过仅使用学习到的嵌入作为输入，使用像 Proximal Policy Optimization（PPO）这样的算法来学习连续控制策略。

Aug, 2018

使用运动块探索 Vision Transformers 用于 3D 人体动作语言模型

构建 3D 人体动作与语言之间的跨模态潜空间对于获取大规模高质量的人体动作数据至关重要，然而，与图像数据的丰富相比，动作数据的稀缺限制了现有动作语言模型的性能，为了解决这个问题，我们介绍了 “动作补丁” 的新表示方法，并通过迁移学习，提出使用视觉变换器（ViT）作为动作编码器，旨在从图像域中提取有用的知识并应用于动作域，我们发现通过使用训练 2D 图像数据获得的 ViT 的预训练权重进行迁移学习可以提高动作分析的性能，为解决有限动作数据的问题提供了一个有希望的方向，我们广泛的实验证明了所提出的动作补丁与 ViT 的联合使用在文本到动作检索以及其他新颖的具有挑战性的任务中取得了最先进的性能，例如跨骨架识别、零样本动作分类和人体交互识别，这些任务目前由于数据缺乏而受到限制。

May, 2024

通过时间减缓原则，自学习得视觉跟踪的深度不变表示

本研究提出一种基于复数不变表示和卷积自编码器的视觉跟踪方法，该方法采用粒子滤波器框架进行实时跟踪，并在多个挑战性基准序列上表现出色。

Apr, 2016

基于卷积神经网络的稳健视觉跟踪

本文提出了一种新的基于卷积神经网络的目标跟踪方法，使用简单的两层卷积神经网络进行在线适应学习，能够生成鲁棒性较强的目标表示，并在 CVPR2013 数据集上的 50 个挑战性视频中表现优异。

Jan, 2015

示范对比学习

该论文提出了一个从多个视角捕捉的无标注视频演示中学习视觉表示的框架，优化了最近提出的自监督学习算法，应用对比学习来增强与任务相关的信息和抑制特征嵌入中的无关信息，验证了所提出的方法在模拟几种机器人任务，包括 pick and place 任务中的应用，评估了学习表示的三个指标：视点对齐，阶段分类和强化学习，在所有情况下，结果都表明与现有方法相比，该方法水平更高，而且训练轮数更少。

Jan, 2022

PatchContrast：自监督预训练用于 3D 物体检测

基于自主车辆的关键挑战是准确检测环境中的物体。我们引入 PatchContrast，这是一个创新的自我监督点云预训练框架，用于 3D 物体检测。通过提出两个抽象层次的利用，我们学习未标记数据的判别性表示：提案级别和补丁级别。提案级别旨在确定物体相对于周围环境的位置，而补丁级别增加了关于物体组件之间内部连接的信息，从而根据它们的独立组件区分不同的对象。我们展示了如何将这些级别集成到自我监督预训练中以增强下游的 3D 检测任务，并证明我们的方法在三个常用的 3D 检测数据集上优于现有的最先进模型。

Aug, 2023

自监督视频预训练产生强大的图像表示

提出了一种名为 VITO 的简单范式，通过对动态视频帧的自我监督学习，有效地学习图像表示，该方法实现了视频预训练模型在语义分割和对象检测等任务上与 ImageNet 预训练模型性能相近甚至更好的表现，未来视频预训练有望成为学习图像表示的新默认方法。

Oct, 2022