ACT-Net：手术视频中的锚点上下文动作检测

Oct, 2023

ACT-Net：手术视频中的锚点上下文动作检测

ACT-Net: Anchor-context Action Detection in Surgery Videos

Luoying Hao, Yan Hu, Wenjun Lin, Qun Wang, Heng Li...

TL;DR为了精确检测每一时刻发生的细微行动，我们提出了一种锚点上下文行动检测网络（ACTNet），包括锚点上下文检测模块和类条件扩散模块，以回答以下问题：1）行动发生在哪里；2）行动是什么；3）如何进行置信度预测。我们的方法在外科手术视频数据集上表现出最新技术水平，相比基准线改进了 4.0％的平均精确度。

Abstract

Recognition and localization of surgical detailed actions is an essential component of developing a context-aware decision support system. However, most existing detection algorithms fail to provide high-accuracy

surgical detailed actions context-aware decision support system action detection network anchor-context detection module class conditional diffusion module

发现论文，激发创造

ACM-Net: 弱监督时间动作定位的动作上下文建模网络

本文提出了一种称为 ACM-Net 的动作上下文建模网络，它在体现动作实例、上下文和非动作背景部分的同时，采用了三分支注意模块来给每个时间点分手概率，并构建了三分支类激活序列来分别表示这三部分，通过在 THUMOS-14 和 ActivityNet-1.3 上的实验证明了这种方法能够胜过当前最先进的方法，甚至能够与完全监督方法达到可比较的性能水平。

Apr, 2021

上下文感知提议网络用于时间动作检测

本技术报告介绍了我们在 CVPR-2022 AcitivityNet 挑战赛中获取的第一名的解决方案，该解决方案旨在为长型未修剪视频中的特定类别的动作实例定位时间边界，并且通过提出 Context-aware Proposal Network (CPN) 等创新技术，在提高精度方面大有改进。

Jun, 2022

时空动作定位的 Action Tubelet 检测器

本文通过提出 ACT-detector，结合对象检测中的 anchor boxes 思想，利用视频的时间连续性进行动作检测，结果表明在 J-HMDB 和 UCF-101 数据集上，我们的 ACT-detector 检测方法在帧 - 平均精度 (frame-mAP) 和视频 - 平均精度 (video-mAP) 上都优于基于帧的最新方法，特别是具有高重叠阈值时，精度和定位都得到了显著的提升。

May, 2017

TACNet：面向时空动作检测的过渡感知上下文网络

本研究提出了一种过渡状态感知上下文网络（TACNet），用于解决当前时空动作检测在时间范围检测方面的不足。通过分类动作和过渡状态，实现了过渡状态的区分，从而可以显著提高 TDIDF 在行动检测上的表现。

May, 2019

ACSNet: 用于弱监督时序动作定位的动作 - 上下文分离网络

本文引入了 ACSNet 以达到精确的弱监督时间动作定位，即通过关注机制，使用前景 - 背景分支和动作 - 背景分支来区分前景、背景、动作和环境，并使用辅助上下文类别进行扩展标签来帮助学习动作上下文分离，并在 THUMOS14 和 ActivityNet v1.2/v1.3 数据集上进行了实验。本文提出的 ACSNet 在现有的 WS-TAL 方法中获得了巨大的优势。

Mar, 2021

腔镜手术视频中的动作识别

在这项研究中，我们设计并评估了一个 CNN-RNN 架构以及一个定制的训练 - 推理框架，以应对腹腔镜手术行动识别中的挑战，包括动作持续时间变异、烟雾、血液积聚、快速相机运动、器官移动、物体阻挡等相关内容扭曲，以及不同照明和视角引起的手术场景变化。通过使用堆叠的循环层，我们的网络利用帧间依赖性来消除内容扭曲和动作识别中的变异的负面影响。此外，我们提出的帧采样策略有效地管理手术动作的持续时间变化，实现了高时间分辨率的动作识别。我们广泛的实验证实了我们的方法在动作识别方面相比静态 CNN 更为优越。

Nov, 2023

重新审视动作定位的锚机制

本文提出了一种新颖的基于点而非预设 anchor 的动作定位模块，结合传统基于 anchor 的模块提出了一种新的动作定位框架 A2Net，实现了在 THUMOS14 上的业界领先表现，证明了基于点和基于 anchor 的模块间互补性。

Aug, 2020

边界离散化和可靠分类网络用于时间动作检测

混合方法的时空动作检测在融合基于锚点和不基于锚点的方法上取得了显著性能，但仍然存在两个关键问题：蛮力融合和手工设计的锚点影响了混合方法的性能和实际应用，以及动作类别预测中大量的误报影响了检测性能。本文提出了一种新颖的边界离散和可靠分类网络（BDRC-Net），通过引入边界离散和可靠分类模块来解决上述问题。具体而言，边界离散模块（BDM）以边界离散的形式巧妙地融合了基于锚点和不基于锚点的方法，避免了传统混合方法所需的手工设计锚点。此外，可靠分类模块（RCM）预测可靠的动作类别以减少动作类别预测中的误报。在不同的基准测试上进行的大量实验证明，我们提出的方法与最先进的方法相比具有较好的性能。例如，在 THUMOS'14 上，BDRC-Net 的平均 mAP 达到了 68.6%，超过了先前最佳水平 1.5%。代码将在该链接处公开发布。

Oct, 2023

上下文感知 RCNN：视频中动作检测的基线

使用 Context-Aware RCNN 方法，将 RoI-Pooling 基于管道的惯常思维挑战，填补了视频行为检测中的空白，迎来了新的思路。

Jul, 2020

CDC: 卷积 - 反卷积网络在未剪辑视频中实现精确的时间动作定位

提出了一种使用 CDC 网络和 3D ConvNets 实现时间上精细边界检测的方法，并达到了非常高的效率和性能。

Mar, 2017