仅需一次观看:一种用于实时时空动作定位的统一 CNN 架构
YOLO 是一种新的目标检测方法,使用单个神经网络从完整图像中直接预测边界框和类别概率,具有实时处理速度、误检低和物体的通用表示等优势。
Jun, 2015
提出了实时全景分割框架 YOSO,通过动态卷积预测掩模,采用特征金字塔汇聚器进行特征图提取,并采用可分离动态解码器进行全景核生成,具有较高的效率和精度,是首个能够与最先进模型相媲美的实时全景分割框架。
Mar, 2023
本研究提出了一种基于三种分段 3D 卷积神经网络的方法,用于解决未经修剪的长视频中的时间动作定位问题,其中提出网络用于识别可能包含动作的候选段,分类网络以一对多动作分类模型进行学习以作为定位网络的初始化,用于定位每个动作实例。
Jan, 2016
本研究提出了一个深度学习框架,可实时进行多个时空动作的本地化、分类和早期预测,通过实时的 SSD 卷积神经网络进行回归和分类检测,再通过一个高效的在线算法构建和标记动作管道以进行实时分析,对于 S/T 动作本地化和早期动作预测在 UCF101-24 和 J-HMDB-21 测试基准中均取得了最新的最佳结果,即使与顶级离线竞争对手相比,我们的系统也可以实现 40fps 的在线 S/T 动作本地化和早期动作预测,本文是首个实现此功能的实时系统。
Nov, 2016
这篇论文提出了一种有效的方法,通过联合静态和运动的 CNN 特征对视频进行帧级别的检测,并通过目标追踪、运动直方图和滑动窗口法实现了时空行为定位,其准确性比现有方法提高了 15%至 12%不等。
Jun, 2015
本文提出了一种全耦合的两路时空结构体系框架,可在极低分辨率(如 12x16 像素)视频中可靠地识别人的动作,以保护人们的隐私,同时在训练期间考虑高分辨率视频以建立更好的低分辨率模型,取得了明显的改进。
Jan, 2018
本文提出了一种统一的、端到端可训练的时空卷积神经网络模型,用于视觉目标分割,包括时间一致分支和空间分割分支,并以优化的方式使用未标记的视频数据从中预训练时空一致性分支,以捕获视频序列的动态外观和运动线索引导对象分割。
Apr, 2019
本文提出了一种名为 Fast YOLO 的新框架,通过深度智能进化框架优化了 YOLOv2 网络架构并将运动自适应推理方法引入,从而在保持性能的同时,在嵌入式设备上实现实时物体检测。实验结果表明,Fast YOLO 框架可以在平均 3.3 倍的速度加速下,将嵌入式系统上的检测性能提高到 18FPS。
Sep, 2017
本研究提出一种新的解决视频时序动作检测单级方案的方法 - Decoupled Single Shot temporal Action Detection (Decouple-SSAD),通过在并行中设计两个单独的分支来实现定位和分类的解耦,从而提高训练效果。该方法在 THUMOS14 数据集上进行了广泛实验,证明了其优越性能。
Apr, 2019
该篇论文提出了一种利用卷积神经网络进行弱监督时间动作定位的算法,其通过学习视频级别的类标签来预测人类动作的时间区间,利用注意力模块鉴别与目标动作有关的重要片段,并通过自适应时间池化融合这些关键片段,同时在损失函数中考虑视频级别的动作分类误差和这些关键片段的稀疏性,利用类别激活和类别无关的注意力在推断时提取和评分时间建议,以估计与目标动作对应的时间区间,在 THUMOS14 数据集上取得了最先进的结果,并具有卓越的 ActivityNet1.3 性能。
Dec, 2017