利用先验知识和状态转换解释视频动作推理
这篇论文分析了当前视频中人类活动理解的研究现状和未来方向,探讨了数据集,评估指标,算法和未来发展方向,并提出需要掌握的信息以实现活动理解的重大进展。
Aug, 2017
在考虑了相机运动或动作作为观察图像状态的一部分,并将图像和动作建模在多模态学习框架内的基础上,我们提出了三个模型:VG-LeAP 使用变分推断学习图像 - 动作潜在先验并将图像 - 动作对作为单一潜在随机过程生成的扩展状态;Causal-LeAP 建立了动作与观察到的图像帧之间的因果关系,学习基于观察到的图像状态的动作先验;RAFI 将增强的图像 - 动作状态概念与扩散生成过程中的流匹配相结合,证明了这种动作条件下的图像生成概念可以扩展到其他基于扩散的模型。通过对我们的新视频动作数据集 RoAM 进行详细的实证研究,我们强调了多模态训练在部分可观察视频生成问题中的重要性。
Jun, 2024
本文提出一种可解释的网络模型 Hierarchical ProtoPNet,该模型通过考虑类别之间的层次关系来解释其推理过程,并在视频动作分类领域中应用,提出了一种多级解释的方法。在 ActivityNet 和 UCF-101 数据集上实验证明该方法能够提高性能。
Jan, 2023
本文讨论了利用深度学习模型进行人类活动识别研究中的挑战,并提出了一种基于对象感知网络的模型,以实现对视频中的语义意义的时空交互的推理,从而在三个不同的数据集上取得了最先进的结果。
Jun, 2018
为了深化视频理解,包含描述、证据推理和常识推理等四类问题,我们提出了因果 - 视频问答任务及两步解决方案,发现最新 VideoQA 方法在描述方面表现强而在推理方面表现弱,希望 Causal-VidQA 能够引导视频理解研究从表示学习向深度推理发展。
May, 2022
本文通过将符号性知识图谱融入变换网络,提高了视频段期望动作的预测准确性,从而加快了编辑工作流程,并通过提供叙事建议来促进创造力。在 Breakfast 和 50Salads 两个基准数据集上,我们的方法在使用短视频上下文进行长期动作预测方面,超过了现有最先进方法高达 9%。
Sep, 2023
通过对视频场景内容及动态规律、语义等方面的先验知识进行分析和预处理,提出一种利用贝叶斯网络解决视频不同场景中的移动轨迹问题的方法,并在实验中证明了其有效性。
Mar, 2016