深入了解视频文本模型的运动表示

ACLJun, 2024

深入了解视频文本模型的运动表示

Diving Deep into the Motion Representation of Video-Text Models

Chinmaya Devaraj, Cornelia Fermuller, Yiannis Aloimonos

TL;DR通过引入生成的 GPT-4 运动描述应用于三个行动数据集并在运动描述检索任务上评估几种视频 - 文本模型，本研究探讨了视频与图片的信息性差异，着重关注视频 - 文本模型对于视频中运动的理解以及需要在现有数据集中加入细致动作信息的问题，并证明了利用动作描述提高视频 - 文本模型对于细致动作的理解的方法的有效性。

Abstract

videos are more informative than images because they capture the dynamics of the scene. By representing motion in videos, we can capture dynamic activities. In this work, we introduce GPT-4 generated

videos motion descriptions video-text models motion understanding fine-grained motion

发现论文，激发创造

从细粒度文本描述生成运动

建立一个大规模的细粒度文本 - 运动数据集 FineHumanML3D，并设计一种新的文本生成运动模型 FineMotionDiffuse，以更好地生成空间 / 时间上的综合动作。

Mar, 2024

T2M-GPT: 使用离散表示生成基于文本描述的人体动作

本文研究了基于 VQ-VAE 和 GPT 的人体运动生成的条件生成框架，并表明了通过常用的训练配方（EMA 和 Code Reset），我们可以获得高质量的离散表示。此外，我们在训练期间采用了一种简单的损坏策略来缓解训练 - 测试偏差，并在 HumanML3D 数据集上表现出比竞争方法更好的性能。

Jan, 2023

MotionGPT：以人类动作为外语

本文提出了一种统一的，多功能的运动语言模型 MotionGPT，旨在通过将语言数据与大规模运动模型相结合，开发出能够增强涉及运动的任务的预训练模型，实现对文本驱动运动生成、运动字幕制作、运动预测和中间运动状态生成等多项任务的最先进表现。

Jun, 2023

文本到动作检索：走向人体运动数据和自然语言的联合理解

本文探讨如何实现基于文本描述的运动检索任务，利用姿态估计、文本编码和基于分割空时注意力的 Motion Transformer 模型，对大量 3D 骨骼序列进行内容检索，实现了相应的定量度量评估。

May, 2023

使用 ChatGPT 改进的描述生成精细人类动作

通过细粒度人体动作扩散模型 (FG-MDM) ，我们成功地生成了符合文本描述的多样化和高质量的人类动作，即使在训练数据分布之外。

Dec, 2023

文本到视频扩散模型中的定制动作

通过扩展现有的文本到视频生成模型，我们引入了一种方法来增加定制动作，以超越原始训练数据中所描绘的动作。通过利用几个呈现特定动作的视频样本作为输入，我们的方法学习并概括了多样化的、与文本指定情景相关的输入动作模式。

Dec, 2023

从文本描述中生成三维场景的人类动作

通过将任务分解为两个可管理的子问题：目标对象的语言准确性和以目标对象为中心的运动生成，本文提出了一种新的方法来生成给定人 - 场景交互文本描述的 3D 室内场景中的人体动作，实验表明我们的方法在运动质量方面优于基线并验证了我们的设计选择。

May, 2024

GPT4Motion：基于 Blender 定向 GPT 规划的文本 - 视频生成脚本化物理动作

GPT4Motion 是一个无需训练的框架，结合 GPT 等大型语言模型的规划能力、Blender 的物理仿真强度以及文本到图像扩散模型的优秀图像生成能力，用于增强视频合成的质量，通过生成 Blender 脚本并与文本提示对齐，生成具有连续物理动作的高质量视频，从而提供了文本到视频研究的新视角。

Nov, 2023

从文本网络监督中学习视频表征

通过采集 70M 个公开的视频并使用相关的文本描述进行自我监督训练，本文提出了一种基于文本的学习视频表示的方法，证明了这种方法在预训练视频表示中比现有的方法更有效。

Jul, 2020

Fg-T2M：基于扩散模型的精细文本驱动人体运动生成

通过结合语言结构辅助模块和上下文感知渐进推理模块，我们提出了一种细粒度的方法，用于生成支持精确文本描述的高质量、有条件的人体动作序列。实验证明，我们的方法在 HumanML3D 和 KIT 测试集上胜过了基于文本驱动的动作生成方法，并能够根据文本条件生成更好的视觉确认动作。

Sep, 2023