激光人：自由环境下基于语言引导的场景感知人体运动生成

Mar, 2024

激光人：自由环境下基于语言引导的场景感知人体运动生成

LaserHuman: Language-guided Scene-aware Human Motion Generation in Free Environment

Peishan Cong, Ziyi WangZhiyang Dou, Yiming Ren, Wei Yin, Kai Cheng...

TL;DR为了解决现有数据集的限制，我们引入了 LaserHuman，这是一个开创性的数据集，旨在革新 Scene-Text-to-Motion 研究。LaserHuman 通过包含 3D 环境中的真实人类动作，自由形式的自然语言描述，室内外场景的混合以及动态、不断变化的场景而脱颖而出。多样的采集数据和丰富的注释为条件运动生成研究提供了巨大机遇，也可以促进实际应用的开发。此外，为了生成语义一致且物理可行的人体动作，我们提出了一个简单但有效的多条件扩散模型，在现有数据集上达到了最先进的性能。

Abstract

language-guided scene-aware human motion generation has great significance for entertainment and robotics. In response to the limitations of existing datasets, we introduce laserhuman, a pioneering dataset engine

language-guided scene-aware human motion generation laserhuman scene-text-to-motion research conditional motion generation multi-conditional diffusion model

发现论文，激发创造

HUMANISE: 3D 场景中基于语言条件的人类运动生成

提出了一个名为 HUMANISE 的大规模、语义丰富的合成 HSI 数据集，并开展了一项名为 Language-conditioned Human Motion Generation 的新一代任务，以及相应的在场景和语言指导下的生成模型，该模型能够在 3D 场景中产生多样化且语义一致的人体动作。

Oct, 2022

多模态感知驱动的三维人体动作预测

未来人体姿势预测是机器智能的基本应用，本研究引入了一种新的多模态感知驱动的运动预测方法，通过结合外部 3D 场景和内部人类凝视信息来实现高保真度的生成，同时考虑人的意图和场景的语义连贯性，该方法在 3D 人体姿势和轨迹预测上取得了最先进的性能。

May, 2024

从文本描述中生成三维场景的人类动作

通过将任务分解为两个可管理的子问题：目标对象的语言准确性和以目标对象为中心的运动生成，本文提出了一种新的方法来生成给定人 - 场景交互文本描述的 3D 室内场景中的人体动作，实验表明我们的方法在运动质量方面优于基线并验证了我们的设计选择。

May, 2024

FreeMotion：多模态大型语言模型的无动捕人体动作合成

通过利用多语言多模态学习模型（MLLMs）的无动作数据，我们首次探索了基于自然语言指令的开放式人类动作合成，实现了通用的人类动作合成，为未来的研究铺平了道路。

Jun, 2024

人体运动生成调查

人体运动生成是生成自然人体姿势序列的目标，具有广泛的实际应用潜力。本文是人体运动生成领域的首篇综述文献，介绍了人体运动和生成模型的背景，并对三个主流子任务（文本条件、音频条件和场景条件的人体运动生成）的代表方法进行了审查。此外，还概述了常见数据集和评估指标，并讨论了开放问题和潜在的未来研究方向。希望该综述能够为社区提供对这个快速发展领域的全面了解，并激发解决尚未解决的挑战的新思路。

Jul, 2023

自然移动，灵活互动：利用场景可控生成语言引导的人体动作

在 3D 环境中，尽管在文本到运动合成方面取得了重大进展，但仍存在许多挑战，我们通过引入一种新的两阶段框架，使用场景赋能作为中间表示，有效地链接 3D 场景定位和条件运动生成，克服了生成多模态条件信号下的人类运动困难，特别是在缺乏广泛的语言 - 场景 - 运动数据对的有限数据训练时，验证了模型的出色泛化能力。

Mar, 2024

基于开放词汇的情景和文本背景下的基础人体运动生成（GHOST）

本文提出了一种方法，将开放词汇场景编码器与架构相结合，建立了文本和场景之间的强大连接；方法通过知识蒸馏从现有的开放词汇语义图像分割模型预训练场景编码器，确保了一个共享的文本 - 场景特征空间，并通过引入两种新的正则化损失，用于回归目标对象的类别和尺寸，在条件运动生成时对场景编码器进行微调；通过在 HUMANISE 数据集上进行的评估和知觉研究，我们的方法相比先前最先进的基准模型，可以使目标对象距离指标减少高达 30%；此外，我们的方法还能无缝适应未来提供每个像素文本对齐特征的 2D 分割方法。

Apr, 2024

面向场景的人体运动合成生成网络

本文提出了一种新框架，将场景和人体运动相互作用考虑在内，使用生成任务将人体运动的分布因子分解，并使用基于 GAN 的学习方法来提高其有效性。文中讨论了两个数据集结果，涵盖了真实和合成环境。

May, 2021

基于场景上下文的人类长期动作预测

本文通过提出新的三阶段框架来对人类运动进行长期预测，在考虑环境场景的情况下大大提高了预测准确性，并提供了具有清晰注释的多样化合成数据集来实现稳定的训练和严格的评估。

Jul, 2020

在 3D 室内场景中合成多样的人体动作

提出了一种基于强化学习的方法来处理 3D 室内场景中虚拟人类与环境以及物体的交互，包括生成运动模型、创新的碰撞回避奖励函数、基于标记体和半径场的交互感知奖励函数以及训练策略等多个方面，实验结果表明，该方法在运动的自然性和多样性方面都优于现有的人 - 场景交互综合框架。

May, 2023