一种视频动作检测的语法组合模型
通过构建表达力强的组合行为模型,模拟视频中动作实例的时空组合,采用弱监督学习算法,识别行为的潜在结构,最终实验结果表明该方法在动作识别方面的表现优于竞争方法。
Feb, 2015
本文提出一种新颖的机器学习模型,通过对主体 - 对象交互的动态学习来探究行为的组成性。该模型能够精确推理组成对象的几何关系和动作代理之间的关系,具有较好的应用前景。在使用 Something-Something 数据集进行训练时,我们提出了一种新的组合性行为识别任务,成功验证了该模型的有效性。
Dec, 2019
该研究提出组合动作识别的方法,并使用时空交互编码器捕捉人体 - 物体之间的交互作用并将其与视频信息相结合。该方法在多个数据集上获得了先进的性能,表明显式地对人体 - 物体之间的交互行为建模是有效的。
May, 2023
通过提出一种综合人体动作预测任务的方法,使用图卷积网络 (GCN) 来生成合成动作并减少对复杂模型的需求,实现了高准确性的人体动作预测,同时减少计算成本。
Nov, 2023
通过提出 DynamicFormer 模型以及 Dynamic composition Module 和 Dynamic interaction Module 来建模人员关系和物体交互,并利用 GCN 和 Multi-level Dynamic Integration 等方法进行了实验验证,该模型在小组活动识别任务中取得了最先进的结果。
May, 2023
本文研究了时空行为定位问题,提出了一种新的图卷积模块(GCM),强调了行为单元之间的关系对于行为定位的重要性,并证明了该模块能够提高现有行为定位方法的性能。
Dec, 2021
本文提出了基于动态隐藏图模块的视频动作识别方法,该模块既可以捕捉多对象间的外观 / 运动变化,又能捕捉他们的时空关系,该方法具有处理流式视频数据的能力,并在 Something-Something 和 ActivityNet 数据集上取得了竞争性的性能。
Dec, 2018
本文首次提出 Action Graph 结构来实现多协调及可能同时进行的时间动作相关视频的生成方式,通过 AG2Vid 模型实现了运动和外观特征的分离,并引入了调度机制以协助视频生成,经过对 CATER 和 Something-Something V2 数据集的训练和评估,证明与基线相比,所生成的视频具有更好的视觉质量和语义一致性。同时,该模型还展现了零样本能力,在生成已学习动作的新组合等方面表现出良好的效果。
Jun, 2020
将图形模型化与分层分级注意机制相结合的新型方法,提高了视频描述的精确性和完整性,通过在场景图中编码对象和动作之间的时空相互依赖性,再结合 3 级图形注意力网络构建了分层分级的注意机制,从而实现了并行生成具有不同语义复杂性的视频描述,提高了动作识别和描述的准确性。
Oct, 2023
介绍了一种将行为分解为时空场景图的表示法,通过将场景图作为时空特征库引入现有的行为识别模型中,取得了更好的表现,同时也说明了分层事件分解的效用,从而实现了少样本行为识别,并在新的时空场景图预测任务上对现有的场景图模型进行了基准测试。
Dec, 2019