高斯时空感知网络用于动作定位

CVPRSep, 2019

Gaussian Temporal Awareness Networks for Action Localization

Fuchen Long, Ting Yao, Zhaofan Qiu, Xinmei Tian, Jiebo Luo...

TL;DR本文提出一种新的视频动作定位框架，使用高斯核实现动作提案的动态时间尺度优化，通过学习一组高斯核对动作的时间结构进行建模，取得了目前最好的检测结果。

Abstract

Temporally localizing actions in a video is a fundamental challenge in video understanding. Most existing approaches have often drawn inspiration from image object detection and extended the advances, e.g., SSD and Faster R-CNN, to produce temporal locations of an action in a 1D sequence. Nevertheless, the results can suffer from robustness problem due to th

video understanding action detection temporal structure gaussian kernels action localization

发现论文，激发创造

重新思考 Faster R-CNN 架构，用于时间段行为定位

介绍了基于 Faster R-CNN 的 TAL-Net 方法，通过多尺度架构、适当扩展感受野、多流特征融合等方式改进了视频中的时间动作定位，实现了在 THUMOS'14 目标检测基准和 ActivityNet 挑战赛中的平均最优表现。

Apr, 2018

基于时间提案演化的精准时间动作定位

提出了一个基于三阶段框架的行动定位方法，包括一个 Actionness 神经网络来生成初始提议，一个 Refinement 网络来进行边界调整，以及一个 Localization 网络进行精细定位回归。在 THUMOS14 基准测试中表现优异，尤其是在高 IoU 阈值下的精确定位方面表现出色，mAP@IoU=0.5 达到 34.2%。

Apr, 2018

时态行为提议精炼的时间上下文聚合网络

本文提出了一种 Temporal Context Aggregation Network（TCANet）来生成高质量的动作提案，通过本地和全局的时间上下文聚合和补充以及逐步边界细化，等等一连串的动作建议生成算法，以增强方法的临床普适性和可应用性。

Mar, 2021

学习稀疏 2D 时间相邻网络用于时间动作定位

本文介绍了在 HACS 时间动作定位挑战赛 2019 中获胜的 Winner 方法。该方法提出了稀疏 2D 时间相邻网络以建模候选动作的时间关系，并通过结合简单的动作分类器，最终在测试集上获得了 23.49 的平均精确度，赢得了比赛的第一名。

Dec, 2019

G-TAD: 时间动作检测的子图定位

本文提出了一种基于图卷积网络的模型来自适应地整合多层次语义上下文到视频特征中，并将时态行为检测作为一个子图定位问题。实验证明，该模型不需额外监督就可以发现有效视频上下文，且在两个检测评测中均达到最优性能。

Nov, 2019

探究用于时序动作定位的更强特征

本文研究了时域动作定位的方法，发现基于变压器的方法可以实现更好的分类性能，但不能生成准确的动作提案，最后通过以较高的帧分辨率提取特征来提高时域动作定位的性能，最终在 CVPR2021HACS 挑战中取得了第一名。

Jun, 2021

使用多阶段 CNN 在未修剪的视频中进行时间动作定位

本研究提出了一种基于三种分段 3D 卷积神经网络的方法，用于解决未经修剪的长视频中的时间动作定位问题，其中提出网络用于识别可能包含动作的候选段，分类网络以一对多动作分类模型进行学习以作为定位网络的初始化，用于定位每个动作实例。

Jan, 2016

上下文感知提议网络用于时间动作检测

本技术报告介绍了我们在 CVPR-2022 AcitivityNet 挑战赛中获取的第一名的解决方案，该解决方案旨在为长型未修剪视频中的特定类别的动作实例定位时间边界，并且通过提出 Context-aware Proposal Network (CPN) 等创新技术，在提高精度方面大有改进。

Jun, 2022

规模有关：针对未修剪视频精确动作定位的时间尺度聚合网络

该研究提出了一个新的集成时间尺度聚合网络（TSA-Net），采用多扩张时间卷积（MDC）块和子网络实现特定持续时间动作的时间响应场，以检测且生成受限于三种关键点的动作提议，并在 THUMOS14 和 ActivityNet-1.3 数据集上达到了新的最佳表现。

Aug, 2019

时间融合网络用于时序动作定位：提交至 ActivityNet Challenge 2020（E 任务）

本技术报告分析了我们在 Activitynet Challenge 2020 中使用的一种时间动作定位方法，该方法利用视频级别特征信息训练多个视频级别动作分类模型，并应用 BMN 等方法产生高质量的时间提案，再通过级联结构网络 Refine Network 和多种模型融合方法，实现了在 HACS 比赛中 Rank1 的好成绩。

Jun, 2020