基于开放词汇的情景和文本背景下的基础人体运动生成（GHOST）

Apr, 2024

基于开放词汇的情景和文本背景下的基础人体运动生成（GHOST）

GHOST: Grounded Human Motion Generation with Open Vocabulary Scene-and-Text Contexts

Zoltán Á. Milacski, Koichiro Niinuma, Ryosuke Kawamura, Fernando de la Torre, László A. Jeni

TL;DR本文提出了一种方法，将开放词汇场景编码器与架构相结合，建立了文本和场景之间的强大连接；方法通过知识蒸馏从现有的开放词汇语义图像分割模型预训练场景编码器，确保了一个共享的文本 - 场景特征空间，并通过引入两种新的正则化损失，用于回归目标对象的类别和尺寸，在条件运动生成时对场景编码器进行微调；通过在 HUMANISE 数据集上进行的评估和知觉研究，我们的方法相比先前最先进的基准模型，可以使目标对象距离指标减少高达 30%；此外，我们的方法还能无缝适应未来提供每个像素文本对齐特征的 2D 分割方法。

Abstract

The connection between our 3d surroundings and the descriptive language that characterizes them would be well-suited for localizing and generating human motion in context but for one problem. The complexity intro

3d surroundings descriptive language motion grounding open vocabulary scene encoder conditional motion generation

发现论文，激发创造

从文本描述中生成三维场景的人类动作

通过将任务分解为两个可管理的子问题：目标对象的语言准确性和以目标对象为中心的运动生成，本文提出了一种新的方法来生成给定人 - 场景交互文本描述的 3D 室内场景中的人体动作，实验表明我们的方法在运动质量方面优于基线并验证了我们的设计选择。

May, 2024

GPT-Connect: 文本驱动的人体运动生成器与 3D 场景的训练无关交互

我们提出了一种新颖的 GPT-connect 框架，通过利用 ChatGPT 在无需训练的情况下，连接现有的人体运动生成器与三维场景，实现了直接生成结合场景的运动序列，并通过广泛的实验证明了我们提出的框架的有效性和普适性。

Mar, 2024

基于场景上下文的人类长期动作预测

本文通过提出新的三阶段框架来对人类运动进行长期预测，在考虑环境场景的情况下大大提高了预测准确性，并提供了具有清晰注释的多样化合成数据集来实现稳定的训练和严格的评估。

Jul, 2020

面向场景的人体运动合成生成网络

本文提出了一种新框架，将场景和人体运动相互作用考虑在内，使用生成任务将人体运动的分布因子分解，并使用基于 GAN 的学习方法来提高其有效性。文中讨论了两个数据集结果，涵盖了真实和合成环境。

May, 2021

TEMOS: 从文本描述生成多样化的人类动作

本文介绍了使用文本描述生成多样的 3D 人类动作的方法，并提出了 TEMOS 框架，它是一种基于变分自编码器的文本条件生成模型，可以产生多种不同的人体动作，实验证明 TEMOS 框架在 KIT Motion-Language 基准测试中取得了显著的改进。

Apr, 2022

激光人：自由环境下基于语言引导的场景感知人体运动生成

为了解决现有数据集的限制，我们引入了 LaserHuman，这是一个开创性的数据集，旨在革新 Scene-Text-to-Motion 研究。LaserHuman 通过包含 3D 环境中的真实人类动作，自由形式的自然语言描述，室内外场景的混合以及动态、不断变化的场景而脱颖而出。多样的采集数据和丰富的注释为条件运动生成研究提供了巨大机遇，也可以促进实际应用的开发。此外，为了生成语义一致且物理可行的人体动作，我们提出了一个简单但有效的多条件扩散模型，在现有数据集上达到了最先进的性能。

Mar, 2024

自然移动，灵活互动：利用场景可控生成语言引导的人体动作

在 3D 环境中，尽管在文本到运动合成方面取得了重大进展，但仍存在许多挑战，我们通过引入一种新的两阶段框架，使用场景赋能作为中间表示，有效地链接 3D 场景定位和条件运动生成，克服了生成多模态条件信号下的人类运动困难，特别是在缺乏广泛的语言 - 场景 - 运动数据对的有限数据训练时，验证了模型的出色泛化能力。

Mar, 2024

MoST: 多模态场景编码用于动作预测

通过将视觉世界划分为场景元素，并利用预训练的图像模型和 LiDAR 神经网络以开放词汇的方式编码所有场景元素，我们提出了一种能够高效编码多帧多模态观察的方法，并且在 Waymo Open Motion 数据集上的实验证明了我们的方法明显优于现有技术。

Apr, 2024

HUMANISE: 3D 场景中基于语言条件的人类运动生成

提出了一个名为 HUMANISE 的大规模、语义丰富的合成 HSI 数据集，并开展了一项名为 Language-conditioned Human Motion Generation 的新一代任务，以及相应的在场景和语言指导下的生成模型，该模型能够在 3D 场景中产生多样化且语义一致的人体动作。

Oct, 2022

T2M-GPT: 使用离散表示生成基于文本描述的人体动作

本文研究了基于 VQ-VAE 和 GPT 的人体运动生成的条件生成框架，并表明了通过常用的训练配方（EMA 和 Code Reset），我们可以获得高质量的离散表示。此外，我们在训练期间采用了一种简单的损坏策略来缓解训练 - 测试偏差，并在 HumanML3D 数据集上表现出比竞争方法更好的性能。

Jan, 2023