丰富时空动作定位的本地和全局上下文
介绍了基于 Faster R-CNN 的 TAL-Net 方法,通过多尺度架构、适当扩展感受野、多流特征融合等方式改进了视频中的时间动作定位,实现了在 THUMOS'14 目标检测基准和 ActivityNet 挑战赛中的平均最优表现。
Apr, 2018
本文引入了 ACSNet 以达到精确的弱监督时间动作定位,即通过关注机制,使用前景 - 背景分支和动作 - 背景分支来区分前景、背景、动作和环境,并使用辅助上下文类别进行扩展标签来帮助学习动作上下文分离,并在 THUMOS14 和 ActivityNet v1.2/v1.3 数据集上进行了实验。本文提出的 ACSNet 在现有的 WS-TAL 方法中获得了巨大的优势。
Mar, 2021
本文针对时间行为定位(TAL)在不带剪辑的视频中查找特定动作片段方面,深入研究了现有方法在模拟这些阶段时,忽略了它们之间的潜在时间约束。作者提出了 IntraC 和 InterC 两个正则化项,使整个框架可以在端对端优化过程中适应这些潜在约束条件,并在 THUMOS14 和 ActivityNet1.3 两个流行的 TAL 数据集上进行了实验。结果表明,本方法在定量和定性上都优于基线,并且所提出的正则化方法还可以推广到其他 TAL 方法(例如,TSA-Net 和 PGCN)。
Feb, 2020
本文提出了一种基于图卷积网络的模型来自适应地整合多层次语义上下文到视频特征中,并将时态行为检测作为一个子图定位问题。实验证明,该模型不需额外监督就可以发现有效视频上下文,且在两个检测评测中均达到最优性能。
Nov, 2019
本文提出了一种 Temporal Context Aggregation Network(TCANet)来生成高质量的动作提案,通过本地和全局的时间上下文聚合和补充以及逐步边界细化,等等一连串的动作建议生成算法,以增强方法的临床普适性和可应用性。
Mar, 2021
本技术报告介绍了我们在 CVPR-2022 AcitivityNet 挑战赛中获取的第一名的解决方案,该解决方案旨在为长型未修剪视频中的特定类别的动作实例定位时间边界,并且通过提出 Context-aware Proposal Network (CPN) 等创新技术,在提高精度方面大有改进。
Jun, 2022
通过学习两个特征子空间(分别专门用于行为和背景)并利用时空运动预测来促进两个特征子空间的学习,本文提出了一种解决弱监督时间动作本地化的方法,该方法在 THUMOS14、ActivityNet v1.2 和 v1.3 数据集上优于现有的 WS-TAL 方法。
Mar, 2021
本研究提出了一种基于三种分段 3D 卷积神经网络的方法,用于解决未经修剪的长视频中的时间动作定位问题,其中提出网络用于识别可能包含动作的候选段,分类网络以一对多动作分类模型进行学习以作为定位网络的初始化,用于定位每个动作实例。
Jan, 2016
本文提出了一种称为 ACM-Net 的动作上下文建模网络,它在体现动作实例、上下文和非动作背景部分的同时,采用了三分支注意模块来给每个时间点分手概率,并构建了三分支类激活序列来分别表示这三部分,通过在 THUMOS-14 和 ActivityNet-1.3 上的实验证明了这种方法能够胜过当前最先进的方法,甚至能够与完全监督方法达到可比较的性能水平。
Apr, 2021
本研究基于 BaSNet 的 WS-TAL 任务使用 MIL 训练了 Local-Global Background Modeling Network(LGBM-Net)模型,通过集成多个模型获得最终检测结果,测试集 mAP 达到 22.45%。
Jun, 2021