R-C3D：用于时序活动检测的区域三维卷积网络

ICCVMar, 2017

R-C3D：用于时序活动检测的区域三维卷积网络

R-C3D: Region Convolutional 3D Network for Temporal Activity Detection

Huijuan Xu, Abir Das, Kate Saenko

TL;DR我们提出了一种基于 R-C3D 模型的视频流活动检测方法，通过提取关键的时空特征来定位和分类实现高效监测，该模型具有端到端的训练方式和较快的运行速度，在多个数据集上取得了最佳的效果。

Abstract

We address the problem of activity detection in continuous, untrimmed video streams. This is a difficult task that requires extracting meaningful spatio-temporal features to capture activities, accurately localiz

activity detection video streams r-c3d spatio-temporal features end-to-end

发现论文，激发创造

时序活动检测的双流区域卷积 3D 网络

该研究引入了新模型 R-C3D 来进行连续未修剪视频流的时间活动检测，包括提取有意义的时空特征来捕捉活动、准确定位每个活动的开始和结束时间，并通过将原始 RGB 流与基于光流的运动流进行有效整合，进一步提高了检测性能。通过在三个基准数据集上的实验，该模型在 THUMOS'14 和 Charades 数据集上取得了最先进的结果，并证明其是一种通用的时间活动检测框架。

Jun, 2019

用于活动检测的上下文多尺度区域卷积 3D 网络

本文提出了一种用于活动检测的上下文多尺度区域卷积 3D 神经网络 (CMS-RC3D)，通过使用时间特征金字塔来表示不同时间尺度的活动实例，并在每个时间特征金字塔的级别上都学习了一个针对特定时间尺度的活动建议检测器和活动分类器，以进行更好的识别。实验结果表明，CMS-RC3D 探测器在处理所有时间尺度范围内的活动时，仅需通过主干网络进行一次，而在 THUMOS14 数据集上比现有方法表现更好，并在 ActivityNet 数据集上实现了可比较的结果，尽管使用了浅层特征提取器。

Jan, 2018

基于全 3D 卷积网络的单帧多跨度检测器 S3D

本文提出了一种名为 S3D 的新颖的单镜头多跨度检测器，利用简单的端到端完全三维卷积 (Conv3D) 网络，在长的、未修剪的视频中进行时间活动检测。在 THUMOS'14 检测基准测试中，S3D 实现了最先进的性能，并且非常有效，能以 1271 FPS 的速度运行。

Jul, 2018

可重构卷积神经网络实现的三维人体活动识别

本文提出了一种基于 RGB-D 视频的自动活动识别的深度模型，使用 3D 卷积和最大池化算子，结合激活函数以及学习出活动的时间结构，该模型可以直接作用在原始输入上进行活动分类，而且还允许动态调整模型结构以适应人类活动的时间变化，并在挑战性场景下验证了该方法的优越性，同时还给出了一个大型的 RGB-D 视频人类活动数据库。

Jan, 2015

基于循环神经网络的未剪辑视频时序活动检测

探讨在视频中使用卷积神经网络和循环神经网络来分类和定位活动的不同方法，并提出了一种实现方法，最终开发出了一个在 CVPR ActivityNet 2016 挑战中实现了竞争力结果的简单灵活的神经网络架构。

Aug, 2016

面向行动识别的定向时态建模

本文引入了通道独立方向卷积（CIDC）操作，学习在局部特征之间建模时间演变，构建了一个轻量级网路建立并能分析多个空间尺度上剪辑级时序演变的网络结构，并通过四个流行的活动识别数据集验证了该方法的有效性，并可视化该网络的激活图，显示其能够关注图像帧中更有意义、与动作相关的部分。

Jul, 2020

视频中动作检测和分割的端到端 3D 卷积神经网络

本研究提出了一种用于视频中动作检测和分割的端到端 3D CNN，利用 3D 卷积特征识别和定位动作，通过平分视频为若干部分，生成不同段落的膜状提议，然后把不同段的提议联系在一起，通过上下文信息实现视频物体分割和动作检测。

Nov, 2017

基于多尺度 3D 卷积神经网络的视频行人再识别

本文提出了一种两流卷积网络，用于提取视频中的时空线索以进行基于视频的人员再识别，其中一种流构建为通过将几个多尺度 3D 卷积层插入 2D CNN 网络而构成的暂时流，另一种流则由 2D CNN 实现以进行空间特征提取，并将两个流的空间和时间特征最终融合，经过广泛使用的基准数据集 MARS、PRID2011 和 iLIDS-VID 的评估表明，我们的方法具有优于现有 3D 卷积网络和现有技术的优秀性能。

Nov, 2018

基于半径边界的的深度结构化三维人体活动识别模型

本文探讨了一种新型深度结构模型，它可以通过卷积神经网络自适应地将活动实例逐个分解为时间部分，将其进一步分配到深度体系结构的零部件中，有效解决了人类活动识别方面的挑战，此方法已在多种拥有复杂情境的实验中得到了验证。

Dec, 2015

使用 3D 残差网络学习时空特征用于动作识别

通过使用 Residual Networks 的 3D CNN，我们训练了一个视频动作识别模型，并实验表明在 Kinetics 数据集上它具有更好的性能，虽然参数很大但没有出现过拟合的问题

Aug, 2017