时空事件图像用于动态场景理解
本文提出 3D 动态场景图作为空间感知的统一表示方法,同时基于视觉惯性数据提供第一个全自动 Spatial PerceptIon eNgine (SPIN) automatically 构建 DSG,并且采用最先进的技术实现物体和人物检测及姿态估计,从而在场景分析,动作规划,决策制定等方面具有极大的潜力。
Feb, 2020
本文介绍了一种面临道路运动相机拍摄时空视角变化而实现动态交通场景分类的解决方案,包括创建了 80 小时的数据集和使用语义上下文和时间性的新型算法开发了一种道路场景动态分类系统,可以帮助理解驾驶员的驾驶行为。
May, 2019
提出了一种基于解离图嵌入的物体相互作用图形表示,用于活动识别,该模型通过事实嵌入图结构来解开空间维度与时间变化之间的表示层次结构,并在 Charades 活动识别基准测试以及聚焦于与近碰撞事件的多物体交互的新数据集上进行了验证。
Dec, 2018
使用混合图神经网络对视频进行复杂活动检测,通过对局部动态场景的图表达应用注意力和对整体长时间活动的时间图表达,提取特征并估计复杂活动类别及其开始和结束时间。在 ActivityNet-1.3、Thumos-14 和 ROAD 三个数据集上,所提出的框架优于所有现有的最先进方法。
Oct, 2023
本文提出了一种基于两个图的模型,其中节点对应于演员和物体,边编码不同类型的交互,通过图神经网络在结果混合图上优化演员、物体及其交互的表示,该方法在 Charades 数据集上实现了最先进的效果,用于解决有关视频理解的挑战性任务,如时间动作定位。
May, 2019
本文提出了一种基于 (2.5+1) D 场景图表示的视频问答方法,将视频帧转成伪 - 3D 视图并保持语义,然后基于此表示应用 transformer 模型进行推理,实验证明,该方法在视频问答任务中具有优异的性能。
Feb, 2022
本文提出了一种数据驱动的方法,利用自监督的神经网络来构建 4D 时空图像,可通过手持多摄像头拍摄的视频进行可视化,并在视频中创建虚拟摄像机以探索时间和视角,在移动摄像头和编辑视频等方面得到验证。
May, 2020
本文提出了使用动态异构图来处理自动驾驶中复杂的动态场景问题,并设计了一种新颖的异构图卷积循环神经网络来捕捉动态图中不同交互信息和其演进,进而准确预测车辆的多模态未来轨迹。
Mar, 2023
本文提出了一种基于场景图的三维场景理解方法,它将场景中的实体组织成图形式,运用基于 PointNet 和 Graph Convolutional Networks(GCN)的学习方法实现了场景图的回归,并且引入了一个新的数据集 3DSSG 来支持该方法的应用和评估。
Apr, 2020
分析了视频中的时空场景图,提出了 SceneSayer 方法,通过对观察到的视频帧进行推理,模拟对象之间关系的演化,并使用神经常微分方程和神经随机微分方程来预测对象之间的未来关系。在 Action Genome 数据集上进行了大量实验验证了该方法的效果。
Mar, 2024