语义视频预测中的模块化行动概念建模

CVPRNov, 2020

语义视频预测中的模块化行动概念建模

Modular Action Concept Grounding in Semantic Video Prediction

Wei Yu, Wenxin Chen, Songhenh Yin, Steve Easterbrook, Animesh Garg

TL;DR该研究介绍了使用语义动作标签作为反向问题进行预测的方法，提出了一种名为模块化动作概念网络的视频预测模型，该模型可以生成对应的未来帧且无需边界框，还可以用于物体检测和高层次的认知任务。

Abstract

Recent works in video prediction have mainly focused on passive forecasting and low-level action-conditional prediction, which sidesteps the learning of interaction between agents and objects. We introduce the task of semantic action-conditional →

video prediction semantic action labels modular action concept network object detection cognitive abilities

发现论文，激发创造

文本视频分割的演员和行为模块化网络

本文提出了一种基于文本的视频分割方法，通过引入一个新的演员和动作的模块化网络，解决了语义不对称问题，同时提出了时间提案聚合机制，获得了单帧分割和全视频分割的最先进性能。

Nov, 2020

ActionCLIP：视频动作识别的新范式

本研究提出了一种基于视觉 - 文本匹配的多模态学习框架，通过对标签文本的语义信息进行建模，并提出了一种新的 “预训练、提示和微调” 范例，以实现零样本行动识别。实验结果表明，ActionCLIP 模型不仅具有卓越的零样本 / 少样本的迁移能力，而且在 Kinetics-400 数据集上也取得了 83.8% 的高准确度表现。

Sep, 2021

生成用于开放词汇视频动作识别的动作条件提示

通过创新地将视频模型与大型语言模型相结合，本研究采用基于行动条件的提示方法来增强文本嵌入的人类先验知识，从而在开放词汇视频动作识别中实现了新的最佳性能，并具有优越的可解释性。

Dec, 2023

多模态时间卷积网络在自我中心视频中预测动作

本文提出了一种基于时间卷积的层次结构多模态神经网络，不依赖于循环层实现对人类动作的预测，且通过多模态融合机制使得在处理具有 # egocentric videos# 意义的庞大数据集时达到了与最新研究相当的性能，但具有明显的时间优势。

Jul, 2021

学习语义感知动态视频预测

该研究提出了一种架构和训练方案，通过显式地建模去除和捕捉视频中语义一致的区域的演变来预测视频帧。

Apr, 2021

以物体为中心的视频表示对长期行动预测

本文旨在建立面向视频中长期动作预测的物体中心表示。我们提出利用视觉 - 语言预训练模型构建物体中心视频表示，通过 “物体提示” 从通用预训练模型中提取任务特定的物体中心表示。我们使用基于 Transformer 的神经架构来识别和预测人 - 物交互，并在 Ego4D、50Salads 和 EGTEA Gaze + 基准测试上进行了广泛评估，定量和定性结果证实了我们提出方法的有效性。

Oct, 2023

基于语言的动作概念空间改进视频自监督学习

使用自监督学习方法，对图像 CLIP 模型进行语言约束的调整，以适应视频领域，提高三个行动识别基准测试的零样本和线性探测性能。

Jul, 2023

移动视频动作识别

本文研究了在移动设备上的视频动作识别任务，提出了一个基于 MobileNetV2 和 Temporal Trilinear Pooling (TTP) 模块的方法，使用多种模态处理压缩视频，并进行了效率测试，结果表明我们的模型在移动设备上可以实现 40FPS 的识别速度，且在模型大小和时间消耗方面表现优异。

Aug, 2019

无监督视频集合中的语义行为发现

通过视觉和语言提示的联合生成模型，对互联网上海量的指示视频进行语义步骤解析，为每个语义步骤和视频段提供文本描述。大量的 YouTube 视频验证了该方法能够准确发现各种任务的语义正确指示。

May, 2016

基于行为条件的视频数据提升预测性能

介绍了一种新颖的行为条件视频生成框架 (ACVG)，通过深度双发生器 - 行为者结构探究行为与生成的图像帧之间的关系，以机器人的行为为条件生成视频序列，从而在动态环境中探索和分析视觉和行为如何相互影响。通过对室内机器人运动数据集进行全面实证研究和详细消融研究，评估了该框架在长期视频生成中的有效性与其他最先进的框架的比较。

Apr, 2024