视频分割和识别的端到端生成框架

Sep, 2015

视频分割和识别的端到端生成框架

An end-to-end generative framework for video segmentation and recognition

Hilde Kuehne, Juergen Gall, Thomas Serre

TL;DR本研究提出了一种基于 Fisher 向量和时间模型相结合的端到端生成式方法来实现人类活动的分割和识别，其适用于各种视频数据集并且优于现有的最先进方法。

Abstract

We describe an end-to-end generative approach for the segmentation and recognition of human activities. In this approach, a visual represe

generative approach segmentation recognition fisher vectors temporal model

发现论文，激发创造

SFGANS 自监督的人体动作分割未来生成器

通过自我监督方法生成原始特征向量的改进表示，提高了现有模型在行动分割的不同子任务上的性能。

Dec, 2023

从视频中无监督学习和分割复杂活动

本文介绍了一种新的无监督视频分割方法，采用迭代鉴别生成方法，通过学习视频视觉特征并建模时序结构，将复杂活动划分为多个子活动，并引入背景模型，验证结果优于现有无监督及弱监督方法。

Mar, 2018

端到端学习对于健身活动识别是否足够？

通过一项健身活动视频的完全标注数据集，本文证明了基于原始像素的端对端学习方法可以与基于姿势估计的先进动作识别软件管道媲美，并且可以支持实时的重复计数等具有时间细粒度的任务。

May, 2023

多模态 Fisher 向量的自我中心活动识别

本文介绍了一个基于 Wearable 设备的多模态自我中心活动识别数据集，其中提出了一种从传感器数据中提取时空轨迹特征的新颖策略，并应用 Fisher Kernel 框架融合视频和时空增强的传感器特征，实验结果表明，精心设计的特征提取和融合算法可以提高信息丰富的视频数据的质量。

Jan, 2016

适用于动作识别和图像注释的循环神经网络 Fisher 向量

该论文研究了基于循环神经网络编码、分类和预测序列的方法。通过使用 Fisher 向量和反向传播算法，该论文展示了循环神经网络在视频动作识别和图像注释等领域取得了最先进的结果，同时提供了出人意料的任务转移学习结果。

Dec, 2015

应用于群体行为识别的视频理解通用框架

本文提出了一种在视频监控应用中检测和跟踪人群以及自动识别他们行为的方法，该方法通过维持空间和时间上的协同性来追踪移动在一起的个人，其中人员的轨迹经过时间窗口分析并使用 Mean-Shift 算法聚类，协同值描述了一组人群的描述质量，同时提出了一个正式的事件描述语言，该方法在机场、地铁、购物中心走廊和入口大厅的 3 个数据集中的 4 个摄像头视角上成功验证了人群事件的识别。

Jun, 2012

使用级联双注意力 CNN 和双向 GRU 框架的人体运动识别

本文提出了一种空间 - 时间级联框架，利用深度学习算法提取人类活动的深入特征，并使用双向 Gated 循环单元进行长期时间建模和人类行为识别。实验结果表明，该方法与现有算法相比在帧每秒的执行时间方面提高了最多 167 倍。

Aug, 2022

无遗漏：全视频动作识别

通过对视频帧进行时间聚类，提出了一种全视频行为识别方法，相较于现有的基于帧采样的方法效果更好，同时由于采用了时空局部聚类和快速的哈明距离计算方法使其训练高效。

Mar, 2021

利用类别组件与本地模型相结合的视频监控活动识别

本文提出了一种用于视频监控应用的自动识别人类活动的方法，将活动表示为类别组件的组合，并且提出了一种 Confident-Frame-based Recognition 算法来提高识别精度，该算法将高置信度的视频帧用作专门的局部模型来帮助分类其余的视频帧，实验结果表明了该方法的有效性。

Feb, 2015

一种用于动作识别的强大高效的视频表示方法

本文旨在介绍一种最先进的视频表示方法并将其应用于高效的动作识别和检测。我们采用密集轨迹特征提取等一系列方法来改进该方法，并比较了传统基于单词包直方图的编码方法以及 Fisher 向量编码方法在视频识别任务中的表现。实验结果表明，我们提出的改进轨迹特征显着优于传统的密集轨迹方法，并且 Fisher 向量编码方法表现更好。

Apr, 2015