非线性时间子空间表示用于行为识别

CVPRMar, 2018

非线性时间子空间表示用于行为识别

Non-Linear Temporal Subspace Representations for Activity Recognition

Anoop Cherian, Suvrit Sra, Stephen Gould, Richard Hartley

TL;DR利用核化排名池化方法压缩数据序列表示，作为时间序列数据处理的新方法，能够提高计算机视觉，机器学习，人类动作识别等算法的效率和准确性。

Abstract

Representations that can compactly and effectively capture the temporal evolution of semantic content are important to computer vision and machine learning algorithms that operate on multi-variate time-series data. We investigate such representations motivated by the task of human acti

temporal evolution sematic content computer vision machine learning human action recognition

发现论文，激发创造

通用排名池化用于活动识别

本文提出了一种新的广义秩池化方法，利用深度模型进行行为识别，保留帧之间的时序关系，实现对行为的更好分类识别效果。在基于多个活动识别的数据集上，广义秩池化的模型取得了最先进的识别效果。

Apr, 2017

通过核线性化的张量表示来进行基于 3D 骨架的动作识别（扩展版）

本文提出了一种基于张量表示的三维动作识别方法，使用径向基函数 (RBF) 生成核描述符，通过描述符的高阶外积形成张量表示，同时使用序列兼容性核和动态兼容性核进行动作识别，该方法在多个基准数据集上实现了最好的效果。

Apr, 2016

针对动作识别的词袋等效递归神经网络

本文提出了一种等价于传统词袋方法的循环神经网络，但可以进行判别式训练，并允许将核计算直接整合到神经网络中，从而解决了复杂性问题；在四个最新的行动识别基准测试上进行了验证，结果表明传统模型以及稀疏编码方法都被超越。

Mar, 2017

动作识别的排名汇聚

提出了一种函数为基础的时间汇集方法，该方法可捕获视频序列数据的潜在结构，并生成一个新的视频表示形式以适用于动作识别问题。结果表明，对于泛化的动作识别问题，精细化的动作识别问题和手势识别问题等，此方法都能够显著提高平均汇集基线的绝对值 7-10。

Dec, 2015

当核方法遇上特征学习：用于基于骨架数据的动作识别的对数协方差网络

本文探讨了基于骨架数据的人类动作识别领域研究现状，提出了一种将核方法和神经网络结合的浅层网络方法，并通过多个公开数据集验证了这种方法的有效性。

Aug, 2017

通过识别时间转换进行视频表示学习

本研究提出了一种新颖的自监督学习方法来学习对于动态运动变化有响应的视频表征，通过训练神经网络来区分不同的时间变换的视频序列，使得无需人工标注数据即可准确地识别视频中的不稳定运动并增强神经网络在小数据集上的训练。该方法经过实验证明，可显著提高 UCF101 和 HMDB51 上的动作识别的传递性能。

Jul, 2020

动作识别的深度卷积特征多核学习

采用多核支持向量机和多流深度卷积神经网络相结合的方法，在多个方面如摄像机视角、视频质量等具有挑战性的 HMDB-51 数据集上，实现了接近最先进技术的 51 种活动识别问题的性能，同时也表现出人类级别的视觉理解能力，并且结合了改进的稠密轨迹和多跳特征叠加等人工手工制造特征补充了性能。

Jul, 2017

时间嵌入：基于时空数据的可扩展无监督时序表征学习，用于多模态计算机视觉

地理空间活动与土地利用类型之间存在相关性。提出一种新颖的自监督方法，基于运动活动时间序列对景观进行分层。时间序列信号首先转换到频域，然后通过压缩自编码器转换为与任务无关的时间嵌入，该方法保留了时间序列中观察到的循环时间模式。通过深度语义分割，将像素级嵌入转换为类似图像的通道，可用于基于任务的异模态建模和下游地理空间任务的建模。实验证明，时间嵌入是时间序列数据的语义有意义的表示方法，并且在不同的任务中如分类住宅区和商业区等有着良好的效果。时间嵌入将时空运动轨迹数据转换为语义有意义的类似图像的张量表示，可以与其他数据模态（如 RBG 图像、道路网络的图嵌入、被动采集的 SAR 图像等）相结合进行多模态学习，从而促进地理空间计算机视觉中的多模态学习。多模态计算机视觉对于训练地理空间特征检测的机器学习模型以保持地理空间映射服务实时更新是至关重要的，可以显著提高用户体验和用户安全。

Oct, 2023

动作识别的时间分离表征学习

本研究通过设计渐进式增强模块（PEM）和创建时间多样性损失（TD Loss）两种方法，以解决将 2D CNN 应用于视频分析中出现的重复和冗余信息利用问题，并在 Something-Something V1 和 V2 等基准时间推理数据集上取得 2.4％和 1.3％的性能改进，同时在大规模数据集 Kinetics 上也 witness 了超过基于 2D-CNN 的现有技术的性能提升。

Jul, 2020

使用统计矩和子空间描述符进行自监督动作识别

本研究提出利用自我监督学习来预测动作概念和辅助描述符，设计并幻化了两种描述符，分别利用图像和视频级别显著性检测器以及四种流行的目标检测器应用于训练视频。通过在中间描述符上捕获四个统计时刻，本文在 Charades 和 EPIC-Kitchens 等五个流行数据集上取得了最优结果。

Jan, 2020