仅需一次观看：一种用于实时时空动作定位的统一 CNN 架构

Nov, 2019

仅需一次观看：一种用于实时时空动作定位的统一 CNN 架构

You Only Watch Once: A Unified CNN Architecture for Real-Time Spatiotemporal Action Localization

Okan Köpüklü, Xiangyu Wei, Gerhard Rigoll

TL;DR本研究提出了一种 YOWO 统一的 CNN 结构，用于视频流中的实时时空动作定位，它是一个单阶段架构，具有提取同时预测时间和空间信息，并直接从视频剪辑中预测边界框和动作概率的特点。

Abstract

spatiotemporal action localization requires the incorporation of two sources of information into the designed architecture: (1) temporal information from the previous frames and (2) →

spatiotemporal action localization cnn architecture real-time temporal information spatial information

发现论文，激发创造

You Only Look Once: 统一、实时目标检测

YOLO 是一种新的目标检测方法，使用单个神经网络从完整图像中直接预测边界框和类别概率，具有实时处理速度、误检低和物体的通用表示等优势。

Jun, 2015

一次分割，实时全景分割的探索

提出了实时全景分割框架 YOSO，通过动态卷积预测掩模，采用特征金字塔汇聚器进行特征图提取，并采用可分离动态解码器进行全景核生成，具有较高的效率和精度，是首个能够与最先进模型相媲美的实时全景分割框架。

Mar, 2023

使用多阶段 CNN 在未修剪的视频中进行时间动作定位

本研究提出了一种基于三种分段 3D 卷积神经网络的方法，用于解决未经修剪的长视频中的时间动作定位问题，其中提出网络用于识别可能包含动作的候选段，分类网络以一对多动作分类模型进行学习以作为定位网络的初始化，用于定位每个动作实例。

Jan, 2016

在线实时多时空动作本地化和预测

本研究提出了一个深度学习框架，可实时进行多个时空动作的本地化、分类和早期预测，通过实时的 SSD 卷积神经网络进行回归和分类检测，再通过一个高效的在线算法构建和标记动作管道以进行实时分析，对于 S/T 动作本地化和早期动作预测在 UCF101-24 和 J-HMDB-21 测试基准中均取得了最新的最佳结果，即使与顶级离线竞争对手相比，我们的系统也可以实现 40fps 的在线 S/T 动作本地化和早期动作预测，本文是首个实现此功能的实时系统。

Nov, 2016

学习跟踪以进行时空动作定位

这篇论文提出了一种有效的方法，通过联合静态和运动的 CNN 特征对视频进行帧级别的检测，并通过目标追踪、运动直方图和滑动窗口法实现了时空行为定位，其准确性比现有方法提高了 15％至 12％不等。

Jun, 2015

极低分辨率动作识别的全耦合双流时空网络

本文提出了一种全耦合的两路时空结构体系框架，可在极低分辨率（如 12x16 像素）视频中可靠地识别人的动作，以保护人们的隐私，同时在训练期间考虑高分辨率视频以建立更好的低分辨率模型，取得了明显的改进。

Jan, 2018

视频目标分割的时空卷积神经网络

本文提出了一种统一的、端到端可训练的时空卷积神经网络模型，用于视觉目标分割，包括时间一致分支和空间分割分支，并以优化的方式使用未标记的视频数据从中预训练时空一致性分支，以捕获视频序列的动态外观和运动线索引导对象分割。

Apr, 2019

快速 YOLO: 一种实时嵌入式视频目标检测仅需一次看图系统

本文提出了一种名为 Fast YOLO 的新框架，通过深度智能进化框架优化了 YOLOv2 网络架构并将运动自适应推理方法引入，从而在保持性能的同时，在嵌入式设备上实现实时物体检测。实验结果表明，Fast YOLO 框架可以在平均 3.3 倍的速度加速下，将嵌入式系统上的检测性能提高到 18FPS。

Sep, 2017

单次拍摄时间动作检测中解耦定位和分类

本研究提出一种新的解决视频时序动作检测单级方案的方法 - Decoupled Single Shot temporal Action Detection (Decouple-SSAD)，通过在并行中设计两个单独的分支来实现定位和分类的解耦，从而提高训练效果。该方法在 THUMOS14 数据集上进行了广泛实验，证明了其优越性能。

Apr, 2019

稀疏时域池化网络弱监督动作定位

该篇论文提出了一种利用卷积神经网络进行弱监督时间动作定位的算法，其通过学习视频级别的类标签来预测人类动作的时间区间，利用注意力模块鉴别与目标动作有关的重要片段，并通过自适应时间池化融合这些关键片段，同时在损失函数中考虑视频级别的动作分类误差和这些关键片段的稀疏性，利用类别激活和类别无关的注意力在推断时提取和评分时间建议，以估计与目标动作对应的时间区间，在 THUMOS14 数据集上取得了最先进的结果，并具有卓越的 ActivityNet1.3 性能。

Dec, 2017