使用行动图进行组合式视频合成

ICMLJun, 2020

Compositional Video Synthesis with Action Graphs

Amir Bar, Roei Herzig, Xiaolong Wang, Anna Rohrbach, Gal Chechik...

TL;DR本文首次提出 Action Graph 结构来实现多协调及可能同时进行的时间动作相关视频的生成方式，通过 AG2Vid 模型实现了运动和外观特征的分离，并引入了调度机制以协助视频生成，经过对 CATER 和 Something-Something V2 数据集的训练和评估，证明与基线相比，所生成的视频具有更好的视觉质量和语义一致性。同时，该模型还展现了零样本能力，在生成已学习动作的新组合等方面表现出良好的效果。

Abstract

Videos of actions are complex signals containing rich compositional structure in space and time. Current video generation methods lack the ability to condition the generation on multiple coordinated and potentially simultaneous timed actions. To address this challenge, we propose to re

action graph video generation disentangled features scheduling mechanism zero-shot abilities

发现论文，激发创造

通过将 3D 游戏引擎和概率图模型相结合生成人类动作视频

本文提出了一种基于过程生成、物理模型和现代游戏引擎组件的人体运动视频生成方法，它可以生成一个包含 39,982 个视频的数据集，其中包括 35 个不同的动作类别。通过结合小的真实数据集，我们的方法可以显著提高视频行为识别性能，即使这些数据集的动作类别不同。

Oct, 2019

基于行为条件的视频数据提升预测性能

介绍了一种新颖的行为条件视频生成框架 (ACVG)，通过深度双发生器 - 行为者结构探究行为与生成的图像帧之间的关系，以机器人的行为为条件生成视频序列，从而在动态环境中探索和分析视觉和行为如何相互影响。通过对室内机器人运动数据集进行全面实证研究和详细消融研究，评估了该框架在长期视频生成中的有效性与其他最先进的框架的比较。

Apr, 2024

时空动作定位的活动图变换器

该研究提出了一种基于深度学习的 Activity Graph Transformer 模型，可以对视频进行端到端分析，精确定位和识别视频内的特定事件活动，并通过非线性图推理方法捕获视频内事件之间的复杂时间结构。实验结果显示此方法在三个具有挑战性的数据集上均优于当前领先的方法。

Jan, 2021

通过程序生成视频以训练深度动作识别网络

通过建立一个可解释的参数生成数码，我们使用程序生成和其他现代游戏引擎的计算机图形技术生成了一组逼真、多样化和符合物理规律的人类动作视频，含 39,982 个视频。利用 UCF101 和 HMDB51 数据集的实验表明，我们的方法可以通过结合使用大量合成视频和小型真实数据集，大幅提高识别性能，明显优于现有的无监督生成模型的微调。

Dec, 2016

一种视频动作检测的语法组合模型

基于语法组合模型的行为检测方法可以有效地分析视频中的人类行动，提高模型的解释性和优化效果。

Oct, 2023

结构感知的人体动作生成

提出了一种利用自注意机制自适应稀疏化完整动作图的 GCN 变体，以捕捉动作序列中的结构信息，在两个标准人类动作数据集上显示了优越性。

Jul, 2020

TEACH：针对 3D 人体的时间动作组合

利用 BABEL 动作文本集合，设计了一种基于 Transformer 的 TEACH 方法，能够根据自然语言描述生成符合语义的 3D 人体动作，实现由多个动作组成的时间动作构成。

Sep, 2022

从文字描述中合成构成动画

本文针对自然语言描述的运动合成问题，提出了一种基于两级流模型的生成复合动作的技术，利用两个流分别表示上下半身的动作，能够有效地生成短句和复合句中描述的 3D 姿态序列，与已有研究相比，实验结果表明我们的模型在客观评价方面进步了 50% 以上，在主观评价方面也得到了很好的实验结果。

Mar, 2021

动作基因组：将动作视为时空场景图的组合

介绍了一种将行为分解为时空场景图的表示法，通过将场景图作为时空特征库引入现有的行为识别模型中，取得了更好的表现，同时也说明了分层事件分解的效用，从而实现了少样本行为识别，并在新的时空场景图预测任务上对现有的场景图模型进行了基准测试。

Dec, 2019

时序动作定位的视频自缝合图网络

该研究提出了一种名为 VSGN 的多级交叉尺度解决方案，其中包括视频自缝合和跨尺度图形金字塔网络等组件，以改善短动作的时空定位性能并在 THUMOS-14 等数据集上取得了最新的最佳表现。

Nov, 2020