本文介绍了一种非监督框架来提取视频表征的语义丰富特征,并提出了一个深度卷积神经网络来分离运动、前景和背景信息。实验结果表明,该网络可以在视频中成功分割前景和背景,并基于分离的运动特征更新前景外观。此处提供的预训练方法可以优于随机初始化和自动编码器预训练,促进了区分性分类任务。
Jul, 2017
本论文提出了一个自监督学习的视频自编码器,能够从视频中学习出 3D 结构和相机姿态的解耦表示,通过重组这些表示来实现诸如新视角合成、相机姿态估计以及运动跟踪的任务。
Oct, 2021
本文提出了一种自监督学习的方法,通过在压缩视频中提取关键帧和动态向量来分别监督上下文和动态信息,并同时设计了两种预设任务,即上下文匹配任务和动态预测任务,以提高视频表示的质量和行动识别准确性。
Apr, 2021
本研究提出一个基于深度学习的人体动作捕捉数据的通用模型,学习自大量的捕捉数据中,并成功应用于人体动作特征提取、分类和预测,优于现有最新技术,具有普遍性。
Feb, 2017
本研究提出了一种新颖的自监督学习方法来学习对于动态运动变化有响应的视频表征,通过训练神经网络来区分不同的时间变换的视频序列,使得无需人工标注数据即可准确地识别视频中的不稳定运动并增强神经网络在小数据集上的训练。该方法经过实验证明,可显著提高 UCF101 和 HMDB51 上的动作识别的传递性能。
Jul, 2020
提出了一种使用动态骨架特征建模监控视频中人类运动规律的新方法,该方法通过将骨架运动分解为全局身体运动和局部身体姿势两个子组件,并使用新型消息传递编码 - 解码循环网络来建模相互作用的耦合特征,以精确识别来自监控视频序列的人类相关的异常事件并提供可解释性。与传统的基于外观的模型相比,该方法实现了卓越的异常检测性能。
Mar, 2019
使用自动编码器的 LSTM 模型从数据中学习预测时空运动模型、自动生成自然运动序列并开发新的评估协议,成功地在两个最大的运动捕捉数据集上表现出长时间水平高于现有的预测和合成方法。
Apr, 2017
本文提出了一种基于深度自动编码器模型和注意力层的关键帧检测方法,该方法首先使用自动编码器的编码器部分从视频帧中提取特征,并使用 K-means 聚类算法对这些特征和相似帧进行分割,然后从每个簇中选择与簇中心最接近的帧作为关键帧,该方法在 TVSUM 视频数据集上达到了 0.77 的分类准确率,对于视频分析领域中的关键帧提取具有良好的应用前景。
Jun, 2023
在没有人工标注标签的前提下,本文提出了一种自我监督学习方法来学习视频的时空特征,通过回归时空维度上的外观和运动统计量来提取视觉特征,并在视频分类任务中验证了其有效性。
Apr, 2019
本文提出了一种无监督表征学习方法,可以紧凑地编码视频中的运动依赖。利用 RNN Encoder-Decoder 框架预测序列化的原子级 3D 流,以有效地减少学习框架的复杂性。该方法可以用于运动分类和识别等多种应用。
Jan, 2017