通过时间动作解析实现内部和外部交互理解
该研究提出了一种用于行动识别的粗到细框架,旨在预测视频级别的行动,并识别视频中每个人体部分的帧级细粒度操作或交互,通过 Kinetics-TPS 的全面实验,该框架取得了最先进的性能,在 31.10%的 ROC 得分上优于现有方法。
Mar, 2022
提出了一种基于完全连接的时间条件随机场模型,用于推理各个活动方面,包括对象、动作和意图,其中潜在函数由深层网络预测;而异步变分推理方法使得高效的端到端训练成为可能,该方法在 Charades 基准测试中达到了 22.4%的分类 mAP,超过了现有技术 (17.2%mAP)。
Dec, 2016
本文介绍了一种新颖的时空变换网络,其中引入了几个原创组件以在未修剪视频中检测动作。该网络通过多特征选择性语义注意力模型计算空间和运动特征之间的关联,使用运动感知网络编码视频帧中的动作位置,并采用序列基础的时间注意力模型捕捉动作帧中的异质时间依赖关系,该方法在四个时空动作数据集上优于最先进的解决方案:AVA 2.2、AVA 2.1、UCF101-24 和 EPIC-Kitchens。
May, 2024
通过构建表达力强的组合行为模型,模拟视频中动作实例的时空组合,采用弱监督学习算法,识别行为的潜在结构,最终实验结果表明该方法在动作识别方面的表现优于竞争方法。
Feb, 2015
通过引入有效的活动语法,本文提出了一种新颖的语法归纳算法,可以从动作序列数据中提取强大的无上下文语法,并开发了一种高效的广义解析器,根据归纳的语法和递归规则将帧级概率分布转化为可靠的动作序列。实验结果表明,我们的方法在两个标准基准评估 Breakfast 和 50 Salads 上在性能和可解释性方面显著提高了时序动作分割。
Dec, 2023
本文提出了基于观察视频小部分来查找视频中特定动作的新问题:视频中的动作识别,并使用递归神经网络模仿人类查找动作的方式,同时建立了 Human Searches 数据集,从中得到人类注释者的行为数据,用于解决动作识别中缺乏数据的问题,实验表明,该模型不仅能够在观察视频的平均 17.3%的情况下高效地探索视频,还能以 30.8%的平均精度准确地找到人类活动。
Jun, 2017
本文提出了一种新的视频动作识别框架 - TSN,并探究了在时间段网络的帮助下学习 ConvNet 模型的一系列良好实践策略。实验结果表明,本方法在 HMDB51(69.4%)和 UCF101(94.2%)数据集上取得了最先进的性能。我们还可视化了学习到的 ConvNet 模型,定性展示了时间段网络和所提出良好实践的有效性。
Aug, 2016
该研究通过构建一个基于 ' 时间数据集 ' 的分类器来研究理解视觉世界如何随时间变化以及在视频理解中,Temporal 与 Static Action Classes 的区别;并表明更多的时间数据可以帮助提高模型性能。
Jul, 2019
该篇论文提出了一种利用卷积神经网络进行弱监督时间动作定位的算法,其通过学习视频级别的类标签来预测人类动作的时间区间,利用注意力模块鉴别与目标动作有关的重要片段,并通过自适应时间池化融合这些关键片段,同时在损失函数中考虑视频级别的动作分类误差和这些关键片段的稀疏性,利用类别激活和类别无关的注意力在推断时提取和评分时间建议,以估计与目标动作对应的时间区间,在 THUMOS14 数据集上取得了最先进的结果,并具有卓越的 ActivityNet1.3 性能。
Dec, 2017