无监督学习视角不变动作表示

NIPSSep, 2018

Unsupervised Learning of View-invariant Action Representations

Junnan Li, Yongkang Wong, Qi Zhao, Mohan S. Kankanhalli

TL;DR提出一种无监督学习框架，利用未标记的数据来学习视频表示，通过学习推断不同视图的三维运动，捕捉视角不变的动作特征，以及增强视角不变特征的学习方法，并在多个数据集上证明该方法对动作识别的有效性。

Abstract

The recent success in human action recognition with deep learning methods mostly adopt the supervised learning paradigm, which requires significant amount of manually labeled data to achieve good performance. How

human action recognition deep learning methods unsupervised learning video representations view-invariant motion dynamics

发现论文，激发创造

通过密集轨迹聚类进行视频表征的非监督学习

本文提出了一个基于无监督学习的方法来学习视频中的动作识别表示，该方法结合图像表示中的两种顶级目标 —— 实例识别和局部聚合，以及通过 IDT 描述符构成的集群。使用此方法，我们在 UCF101 和 HMDB51 动作识别基准测试中取得了优异的结果，并且成功捕捉了视频动态。

Jun, 2020

从未见过的视角识别视频中的行为

本文提出了基于三维表示的方法以及引入了一层新的几何卷积层，从而使当前卷积神经网络模型可以学习具有视角不变性的表示，且对于未见过的视角也可以进行识别。我们还提出了一个新的具有挑战性的未见视角识别数据集，并展示了该方法学习视角不变表示的能力。

Mar, 2021

通过识别时间转换进行视频表示学习

本研究提出了一种新颖的自监督学习方法来学习对于动态运动变化有响应的视频表征，通过训练神经网络来区分不同的时间变换的视频序列，使得无需人工标注数据即可准确地识别视频中的不稳定运动并增强神经网络在小数据集上的训练。该方法经过实验证明，可显著提高 UCF101 和 HMDB51 上的动作识别的传递性能。

Jul, 2020

姿势来自动作：基于运动的无监督学习姿势特征

本文提出了一种从视频中自动学习姿态特征的无监督方法，该方法利用了动作信号这一与外貌互补且可用于监督的信号，使用一个外貌卷积神经网络和一个运动卷积神经网络来表示姿态和生成动作编码，通过在 FLIC、PASCAL、UCF101 和 HMDB51 数据集上的 fine-tuning 实验证明了其在静态图像动作识别和视频动作识别方面的优越性。

Sep, 2016

从未标注的视频预测视觉表达

该论文提出了一种利用未标记视频进行计算机视觉的动作和物体预测的深度学习框架，并采用可预测图像特征的目标识别算法进行实验验证。

Apr, 2015

时间对比网络：从视频中进行自监督学习

提出了一种自监督学习的方法，可以从多个视角拍摄的未标记视频中学习表征和机器人行为，能够用于机器人模仿人类的对象交互和身体姿势，训练该模型使用度量学习损失，使该模型能够发现在不同视角下发生变化但在时间域内不发生变化的属性，并可在强化学习算法中用作奖励函数。

Apr, 2017

预测未来的可预测性学习

该论文提出了一个基于超伯利几何的预测模型，能够从未标记的视频中学习可预测特征的层次结构，并在动作预测方面展现出层次表示法的关键作用。

Jan, 2021

利用三元组损失进行无监督动作分段

本文提出了一种全新的无监督学习框架来从单一的输入视频中学习适合于行动分割任务的动作表示，无需任何训练数据，达到了与现有无监督方法相比更高质量的时间边界恢复，并通过应用聚类算法在学习的表示上取得了具有竞争力的表现。

Apr, 2023

无监督视频表示学习的演化损失

本文提出了一种新的方法来从大规模的无标签视频数据中学习视频表示，采用无监督表示学习作为多模式、多任务学习问题，利用进化搜索算法来自动找到捕获许多（自我监督）任务和模态的优化损失函数的组合，并提出了一种基于 Zipf 定律的无监督表示验证度量，该度量不受任何标签的指导，可产生类似于弱监督、特定任务的结果，该方法得到了单一 RGB 网络的无监督表示学习，并且胜过了之前的方法。

Feb, 2020

使用弱监督为未修剪视频中的行动识别学习可转移的自我关注表示

提出一种新的基于弱监督框架，通过利用注意力机制定位动作帧同时识别未修剪视频中的动作，利用修剪视频中的信息传递知识来提高分类性能。在 THUMOS14 和 ActivityNet1.3 上经过广泛的实验，实验证明了该方法的有效性。

Feb, 2019