利用先验知识和状态转换解释视频动作推理

Aug, 2019

利用先验知识和状态转换解释视频动作推理

Explainable Video Action Reasoning via Prior Knowledge and State Transitions

Tao Zhuo, Zhiyong Cheng, Peng Zhang, Yongkang Wong, Mohan Kankanhalli

TL;DR提出了一种基于场景图和深度学习的动作推理框架，通过先前的知识解释视频状态变化的语义级观察结果，该方法可以用逻辑规则和语义级变化观察结果解释其行动推理结果。

Abstract

human action analysis and understanding in videos is an important and challenging task. Although substantial progress has been made in past years, the explainability of existing methods is still limited. In this work, we propose a novel →

human action analysis video understanding action reasoning deep learning scene graph

发现论文，激发创造

如何理解视频中的人类行为所需的行动？

这篇论文分析了当前视频中人类活动理解的研究现状和未来方向，探讨了数据集，评估指标，算法和未来发展方向，并提出需要掌握的信息以实现活动理解的重大进展。

Aug, 2017

学习动作先验的视频生成

在考虑了相机运动或动作作为观察图像状态的一部分，并将图像和动作建模在多模态学习框架内的基础上，我们提出了三个模型：VG-LeAP 使用变分推断学习图像 - 动作潜在先验并将图像 - 动作对作为单一潜在随机过程生成的扩展状态；Causal-LeAP 建立了动作与观察到的图像帧之间的因果关系，学习基于观察到的图像状态的动作先验；RAFI 将增强的图像 - 动作状态概念与扩散生成过程中的流匹配相结合，证明了这种动作条件下的图像生成概念可以扩展到其他基于扩散的模型。通过对我们的新视频动作数据集 RoAM 进行详细的实证研究，我们强调了多模态训练在部分可观察视频生成问题中的重要性。

Jun, 2024

探索视频动作识别中的可解释性

我们提出了一个用于研究动作识别假设并定量测试的框架，从而推进视频动作识别中深度神经网络的可解释性研究。

Apr, 2024

视频动作识别的分层解释

本文提出一种可解释的网络模型 Hierarchical ProtoPNet，该模型通过考虑类别之间的层次关系来解释其推理过程，并在视频动作分类领域中应用，提出了一种多级解释的方法。在 ActivityNet 和 UCF-101 数据集上实验证明该方法能够提高性能。

Jan, 2023

视频中的对象级视觉推理

本文讨论了利用深度学习模型进行人类活动识别研究中的挑战，并提出了一种基于对象感知网络的模型，以实现对视频中的语义意义的时空交互的推理，从而在三个不同的数据集上取得了最先进的结果。

Jun, 2018

从表示到推理：面向视频问答的证据与常识推理

为了深化视频理解，包含描述、证据推理和常识推理等四类问题，我们提出了因果 - 视频问答任务及两步解决方案，发现最新 VideoQA 方法在描述方面表现强而在推理方面表现弱，希望 Causal-VidQA 能够引导视频理解研究从表示学习向深度推理发展。

May, 2022

人类中心视频中基于知识引导的短上下文动作预测

本文通过将符号性知识图谱融入变换网络，提高了视频段期望动作的预测准确性，从而加快了编辑工作流程，并通过提供叙事建议来促进创造力。在 Breakfast 和 50Salads 两个基准数据集上，我们的方法在使用短视频上下文进行长期动作预测方面，超过了现有最先进方法高达 9%。

Sep, 2023

语言模型引导的可解释视频行为推理

通过语言模型引导的可解释的动作识别框架 (LaIAR)，提高了视频模型的性能和可解释性。

Apr, 2024

面向场景的动态预测知识转移

通过对视频场景内容及动态规律、语义等方面的先验知识进行分析和预处理，提出一种利用贝叶斯网络解决视频不同场景中的移动轨迹问题的方法，并在实验中证明了其有效性。

Mar, 2016

从未标注的视频预测视觉表达

该论文提出了一种利用未标记视频进行计算机视觉的动作和物体预测的深度学习框架，并采用可预测图像特征的目标识别算法进行实验验证。

Apr, 2015