COMPOSER: 视频中基于关键点的组群活动的组合推理
本文提出一种基于 actor-transformer model 认知视频中的个人行为和组群活动的模型,并通过 2D 姿态网络和 3D CNN 等方式提供丰富的个人动态和静态信息表示,从而在公开数据集上取得了显著的效果。
Mar, 2020
本研究提出了一种新的基于 Transformer 模型的团队活动识别方法,该方法借助注意机制对部分环节进行定位与编码,再对其进行聚合以反映整个活动的完整背景和每个环节的时间演化,无需借助较强的监督方法,在两个基准测试中均表现良好。
Apr, 2022
通过提出 DynamicFormer 模型以及 Dynamic composition Module 和 Dynamic interaction Module 来建模人员关系和物体交互,并利用 GCN 和 Multi-level Dynamic Integration 等方法进行了实验验证,该模型在小组活动识别任务中取得了最先进的结果。
May, 2023
该研究通过引入由语法指导的多模事件识别框架,进一步探讨了事件的构成结构与语言的构成结构如何相互影响,以及这种影响如何影响视觉行为识别,包括指导注意力、产生句子描述和查询视频等三个方面。
Aug, 2013
介绍了一个新的机遇 Compositional Temporal Grounding 任务和两个新的数据集拆分,即 Charades-CG 和 ActivityNet-CG,用于测试模型的组合泛化能力,提出了一个变异的跨图推理框架来应对这一挑战。
Mar, 2022
本论文提出了一种新的基于深度学习架构的社交互动推理方法,该方法利用了多步推理能力和注意力机制,并应用于多模式扩展。实验结果表明该方法可以更好地利用多模态输入并在 Social Video 问答任务中取得了 2.5% 的准确率提升。
Oct, 2022
本文提出了一种基于物体分解和语义关系的视觉推理框架,包括物体因子分解方法和神经模块网络,具有较好的推理能力和泛化性能,并且提供了可解释的决策过程界面。
Mar, 2023
使用混合图神经网络对视频进行复杂活动检测,通过对局部动态场景的图表达应用注意力和对整体长时间活动的时间图表达,提取特征并估计复杂活动类别及其开始和结束时间。在 ActivityNet-1.3、Thumos-14 和 ROAD 三个数据集上,所提出的框架优于所有现有的最先进方法。
Oct, 2023
本研究提出了一种基于场景物体的运动特征的像素级未来预测方法,采用隐式预测物体的未来状态并考虑它们之间的相互作用,通过全局轨迹水平的潜在随机变量对任务多模态进行克服,并在两个数据集上进行了实证验证。
Aug, 2019