YH Technologies 在 ActivityNet Challenge 2018 中
本研究旨在提出一种基于时间卷积网络的新型提议模型以解决时间行为定位中行为提议的低质量问题,并在该领域取得了最先进的性能结果。
Jul, 2017
本技术报告分析了我们在 Activitynet Challenge 2020 中使用的一种时间动作定位方法,该方法利用视频级别特征信息训练多个视频级别动作分类模型,并应用 BMN 等方法产生高质量的时间提案,再通过级联结构网络 Refine Network 和多种模型融合方法,实现了在 HACS 比赛中 Rank1 的好成绩。
Jun, 2020
第三届 ActivityNet 大型活动识别挑战,旨在识别用户生成视频中的日常生活、高层级、目标导向的活动,并且探寻视觉内容与人类说明之间的联系。
Aug, 2018
本文介绍了我们提交至 ActivityNet Challenge 2016 非修剪视频分类任务的方法。我们使用基于时间段网络的基本流程,并通过其他技术提高模型性能。我们使用最新的深度模型体系结构,如 ResNet 和 Inception V3,并引入了新的聚合方案(top-k 和注意力加权池化)。此外,我们以音频作为补充通道,通过应用于频谱图的卷积神经网络提取相关信息。通过这些技术,我们导出了一个深度模型集合,它们共同在测试集上取得了高分类精度(mAP 93.23%),并获得了挑战赛的第一名。
Aug, 2016
利用手动载入的运动边界直方图特征和 VGG16、GoogLeNet、C3D 等深层网络的特征,使用线性的 one-versus-rest 支持向量机分类器进行分类任务,并加权平均融合最近的超深度 ResNet-101 的 softmax 得分,从而实现了在 ActivityNet 挑战 2016 中进行长且未修剪视频中的动作识别目标。
Apr, 2017
本篇论文介绍我们针对 Activitynet Challenge 2018 中的两个任务 ——trimmed activity recognition (Kinetics) 和 trimmed event recognition (Moments in Time),所采用的基于 non-local 神经网络和 temporal segment 网络的多模态方法,并使用新型的 non-local-based 模型以提高识别准确性,最终我们通过模型融合在 Kinetics 验证集中取得了 83.5% 的 top-1 准确度和 96.8% 的 top-5 准确度,在 MIT 验证集中则取得了 35.81% 的 top-1 准确度和 62.59% 的 top-5 准确度。
Jun, 2018
本技术报告介绍了我们在 CVPR-2022 AcitivityNet 挑战赛中获取的第一名的解决方案,该解决方案旨在为长型未修剪视频中的特定类别的动作实例定位时间边界,并且通过提出 Context-aware Proposal Network (CPN) 等创新技术,在提高精度方面大有改进。
Jun, 2022
本文介绍了我们在 ActivityNet Dense Captioning in Video 任务(任务 3)中的系统,该任务中,我们提出了一种 proposal 排名模型,利用一组有效的特征表示进行 proposal 生成,并集成一系列具有上下文信息增强的 caption 模型,在预测的 proposal 上稳健生成 caption。我们的方法在密集视频字幕任务中取得了最先进的性能,在挑战测试集上获得了 8.529 的 METEOR 分数。
Jun, 2018