基于时间卷积的动作提议:ActivityNet 2017 提交
本技术报告介绍了我们在 CVPR-2022 AcitivityNet 挑战赛中获取的第一名的解决方案,该解决方案旨在为长型未修剪视频中的特定类别的动作实例定位时间边界,并且通过提出 Context-aware Proposal Network (CPN) 等创新技术,在提高精度方面大有改进。
Jun, 2022
本技术报告分析了我们在 Activitynet Challenge 2020 中使用的一种时间动作定位方法,该方法利用视频级别特征信息训练多个视频级别动作分类模型,并应用 BMN 等方法产生高质量的时间提案,再通过级联结构网络 Refine Network 和多种模型融合方法,实现了在 HACS 比赛中 Rank1 的好成绩。
Jun, 2020
该论文利用图卷积网络 (GCNs) 来建立动作建议图,通过使用两种关系来捕捉上下文信息和不同动作之间的相关性,以模拟不同建议之间的关系并学习强大的动作分类和本地化表示,实验证明该方法在 THUMOS14 上显著优于现有最先进模型。
Sep, 2019
介绍了基于 Faster R-CNN 的 TAL-Net 方法,通过多尺度架构、适当扩展感受野、多流特征融合等方式改进了视频中的时间动作定位,实现了在 THUMOS'14 目标检测基准和 ActivityNet 挑战赛中的平均最优表现。
Apr, 2018
本文总结和比较分析了我们针对 ActivityNet Challenge 2018 中的五项任务所设计的系统,包括时间动作提议、时间动作定位、视频中的密集事件字幕、裁剪动作识别和时空动作定位。
Jun, 2018
该篇论文提出了一种利用卷积神经网络进行弱监督时间动作定位的算法,其通过学习视频级别的类标签来预测人类动作的时间区间,利用注意力模块鉴别与目标动作有关的重要片段,并通过自适应时间池化融合这些关键片段,同时在损失函数中考虑视频级别的动作分类误差和这些关键片段的稀疏性,利用类别激活和类别无关的注意力在推断时提取和评分时间建议,以估计与目标动作对应的时间区间,在 THUMOS14 数据集上取得了最先进的结果,并具有卓越的 ActivityNet1.3 性能。
Dec, 2017
本技术报告介绍了我们在 AcitivityNet 2021 挑战赛中针对时间动作检测任务提出的解决方案。我们通过使用 BMN、slowfast、CSN 和 ViViT 等方法来进行动作分类和特征编码,改进 BMN 算法的提案生成和行为检测以及不同设置下的结果综合,最终在测试集中取得 44.7% 的平均 mAP,相较于 ActivityNet 2020 冠军成绩提高了 1.9%。
Jun, 2021
本研究提出了一种基于三种分段 3D 卷积神经网络的方法,用于解决未经修剪的长视频中的时间动作定位问题,其中提出网络用于识别可能包含动作的候选段,分类网络以一对多动作分类模型进行学习以作为定位网络的初始化,用于定位每个动作实例。
Jan, 2016
本文介绍了我们提交至 ActivityNet Challenge 2016 非修剪视频分类任务的方法。我们使用基于时间段网络的基本流程,并通过其他技术提高模型性能。我们使用最新的深度模型体系结构,如 ResNet 和 Inception V3,并引入了新的聚合方案(top-k 和注意力加权池化)。此外,我们以音频作为补充通道,通过应用于频谱图的卷积神经网络提取相关信息。通过这些技术,我们导出了一个深度模型集合,它们共同在测试集上取得了高分类精度(mAP 93.23%),并获得了挑战赛的第一名。
Aug, 2016