基于结构最大化和时间的行为定位

CVPRApr, 2017

基于结构最大化和时间的行为定位

Temporal Action Localization by Structured Maximal Sums

Zehuan Yuan, Jonathan C. Stroud, Tong Lu, Jia Deng

TL;DR本研究解决视频中时间段行动定位的问题，使用结构化预测来对任意长度的时间窗口进行评分，同时将每个行动的开始、中间和结束作为单独的组件进行分类，从而明确地建模每个行动的时间演变并利用该结构中存在的有价值的时间依赖关系，最后通过使用深度卷积神经网络来计算帧分类分数，并针对新颖的结构化目标进行端到端的训练以直接优化分类结果。在 THUMOS14 行动检测基准测试中，本系统表现出竞争力。

Abstract

We address the problem of temporal action localization in videos. We pose action localization as a structured prediction over arbitrary-length temporal windows, where each window is scored as the sum of frame-wis

temporal action localization structured prediction arbitrary-length temporal windows classification scores convolutional neural network

发现论文，激发创造

使用多阶段 CNN 在未修剪的视频中进行时间动作定位

本研究提出了一种基于三种分段 3D 卷积神经网络的方法，用于解决未经修剪的长视频中的时间动作定位问题，其中提出网络用于识别可能包含动作的候选段，分类网络以一对多动作分类模型进行学习以作为定位网络的初始化，用于定位每个动作实例。

Jan, 2016

稀疏时域池化网络弱监督动作定位

该篇论文提出了一种利用卷积神经网络进行弱监督时间动作定位的算法，其通过学习视频级别的类标签来预测人类动作的时间区间，利用注意力模块鉴别与目标动作有关的重要片段，并通过自适应时间池化融合这些关键片段，同时在损失函数中考虑视频级别的动作分类误差和这些关键片段的稀疏性，利用类别激活和类别无关的注意力在推断时提取和评分时间建议，以估计与目标动作对应的时间区间，在 THUMOS14 数据集上取得了最先进的结果，并具有卓越的 ActivityNet1.3 性能。

Dec, 2017

基于时间提案演化的精准时间动作定位

提出了一个基于三阶段框架的行动定位方法，包括一个 Actionness 神经网络来生成初始提议，一个 Refinement 网络来进行边界调整，以及一个 Localization 网络进行精细定位回归。在 THUMOS14 基准测试中表现优异，尤其是在高 IoU 阈值下的精确定位方面表现出色，mAP@IoU=0.5 达到 34.2%。

Apr, 2018

结构分段网络在时间动作检测中的应用

本文提出了一种基于结构化分割网络 (SSN) 的新型框架，该框架可以通过一个结构化的时间金字塔模型来建模每个动作实例的时间结构，并通过划分的判别模型有效地区分正面提议和背景或不完整的提议，在 THUMOS14 和 ActivityNet 数据集上表现优于现有方法。

Apr, 2017

学习跟踪以进行时空动作定位

这篇论文提出了一种有效的方法，通过联合静态和运动的 CNN 特征对视频进行帧级别的检测，并通过目标追踪、运动直方图和滑动窗口法实现了时空行为定位，其准确性比现有方法提高了 15％至 12％不等。

Jun, 2015

探究用于时序动作定位的更强特征

本文研究了时域动作定位的方法，发现基于变压器的方法可以实现更好的分类性能，但不能生成准确的动作提案，最后通过以较高的帧分辨率提取特征来提高时域动作定位的性能，最终在 CVPR2021HACS 挑战中取得了第一名。

Jun, 2021

基于自然对抗性互相正则化的自下而上时域动作定位

本文针对时间行为定位（TAL）在不带剪辑的视频中查找特定动作片段方面，深入研究了现有方法在模拟这些阶段时，忽略了它们之间的潜在时间约束。作者提出了 IntraC 和 InterC 两个正则化项，使整个框架可以在端对端优化过程中适应这些潜在约束条件，并在 THUMOS14 和 ActivityNet1.3 两个流行的 TAL 数据集上进行了实验。结果表明，本方法在定量和定性上都优于基线，并且所提出的正则化方法还可以推广到其他 TAL 方法（例如，TSA-Net 和 PGCN）。

Feb, 2020

使用深度度量学习进行弱监督时序动作定位

本文介绍了一种弱监督的时间动作定位方法，该方法只需要视频级别的动作实例作为训练数据，在视频的每个片段中生成行为标签，并学习不同动作实例之间的相似性，实验表明该方法在两个视频数据集上取得了有竞争力的结果。

Jan, 2020

规模有关：针对未修剪视频精确动作定位的时间尺度聚合网络

该研究提出了一个新的集成时间尺度聚合网络（TSA-Net），采用多扩张时间卷积（MDC）块和子网络实现特定持续时间动作的时间响应场，以检测且生成受限于三种关键点的动作提议，并在 THUMOS14 和 ActivityNet-1.3 数据集上达到了新的最佳表现。

Aug, 2019

用于行为识别的异步时间场

提出了一种基于完全连接的时间条件随机场模型，用于推理各个活动方面，包括对象、动作和意图，其中潜在函数由深层网络预测；而异步变分推理方法使得高效的端到端训练成为可能，该方法在 Charades 基准测试中达到了 22.4％的分类 mAP，超过了现有技术 (17.2％mAP)。

Dec, 2016