关键词spatio-temporal relations
搜索结果 - 8
- ACTrack: 为视觉目标跟踪添加时空条件
我们提出了 ACTrack,一个新的跟踪框架,通过冻结参数来保留预训练的 Transformer 骨干的质量和能力,并使用可训练的轻量级加法网络来建模跟踪中的时空关系,实验结果证明 ACTrack 能够在训练效率和跟踪性能之间取得平衡。
- 可解释运动预测的解缠关系神经推理
本文提出了一种变分自动编码器框架,通过整合基于图表示和时间序列模型,有效捕捉交互式动态代理之间的时空关系并预测其动态行为,进而增强模型的可解释性和在分布外泛化的能力。经过大量的仿真和现实世界数据集的实验证明,与现有方法相比,本方法在建模时空 - MRSN: 多关系支持网络的视频动作检测
该研究提出了一种名为 MRSN 的神经网络模型,利用 Actor-Context 和 Actor-Actor Relation Encoder 分别建模,并通过 Relation Support Encoder 计算二者的支持并进行关系级互 - MM基于人类手动演示视频的自动交互和活动识别技术及其在异常检测中的应用
本文提出一种基于场景图,利用图像序列提取关键交互特征并编码动作模式和上下文的方法,同时引入基于事件的自动视频分割和聚类,成功地实现了识别手 - 物体和物体 - 物体交互,并匹配不同受试者执行的同一活动。
- ECCV逆序输入变换器用于参与者行为推理和预测
本文提出了一种新颖的 EF-Transformer 模型,该模型通过对空间和时间域的注意机制,建模参与者之间的关系,从而更好地推断和预测参与者的行为,实验结果表明,相比其他方法,EF-Transformer 在团体活动中的表现更好,能够更好 - 用于视频理解的统一图结构模型
本文提出了一种基于信息传递的图神经网络,能够精确理解视频中行为者、对象和环境之间的关系,在显式表示对象时能够使用显式表示,否则使用隐含表示;在 AVA 和 UCF101-24 的时空行为检测以及最近的 Action Genome 数据集上的 - ViSiL: 细粒度时空视频相似性学习
本文介绍了 ViSiL,一种视频相似性学习架构,它考虑了视频对之间的细粒度时空关系,包括了相似性评估之前的整个帧或整个视频的向量描述。通过卷积神经网络,我们从提炼的帧间相似性矩阵中计算视频间相似度,以同时考虑帧内和帧间的相似性。我们的方法避 - ZipNet-GAN:基于生成对抗神经网络推断细粒度移动流量模式
本文提出了一种针对城市移动流量分析的移动流量超分辨率技术,利用深度学习架构为移动网络设计了定制 ZipNet 和 GAN 模型,通过推断出从粗浅测量中获取的狭窄本地流量消耗, 能够唯一捕捉广泛覆盖区域上例行监测的流量量快照和相应消费的高分辨