自然移动，灵活互动：利用场景可控生成语言引导的人体动作

CVPRMar, 2024

自然移动，灵活互动：利用场景可控生成语言引导的人体动作

Move as You Say, Interact as You Can: Language-guided Human Motion Generation with Scene Affordance

Zan Wang, Yixin Chen, Baoxiong Jia, Puhao Li, Jinlu Zhang...

TL;DR在 3D 环境中，尽管在文本到运动合成方面取得了重大进展，但仍存在许多挑战，我们通过引入一种新的两阶段框架，使用场景赋能作为中间表示，有效地链接 3D 场景定位和条件运动生成，克服了生成多模态条件信号下的人类运动困难，特别是在缺乏广泛的语言 - 场景 - 运动数据对的有限数据训练时，验证了模型的出色泛化能力。

Abstract

Despite significant advancements in text-to-motion synthesis, generating language-guided human motion within 3d environments poses substantial challenges. These challenges stem primarily from (i) the absence of p

text-to-motion synthesis generative models 3d environments scene affordance human motions

发现论文，激发创造

在 3D 场景中合成长期的 3D 人体动作和互动

本文提出一种层次生成框架，通过优化多个几何约束和建模场景互动和应用来合成涉及长期 3D 人体动作的逼真生成，并在实验中得出了比之前更好的实验结果。

Dec, 2020

从文本描述中生成三维场景的人类动作

通过将任务分解为两个可管理的子问题：目标对象的语言准确性和以目标对象为中心的运动生成，本文提出了一种新的方法来生成给定人 - 场景交互文本描述的 3D 室内场景中的人体动作，实验表明我们的方法在运动质量方面优于基线并验证了我们的设计选择。

May, 2024

HUMANISE: 3D 场景中基于语言条件的人类运动生成

提出了一个名为 HUMANISE 的大规模、语义丰富的合成 HSI 数据集，并开展了一项名为 Language-conditioned Human Motion Generation 的新一代任务，以及相应的在场景和语言指导下的生成模型，该模型能够在 3D 场景中产生多样化且语义一致的人体动作。

Oct, 2022

面向场景的人体运动合成生成网络

本文提出了一种新框架，将场景和人体运动相互作用考虑在内，使用生成任务将人体运动的分布因子分解，并使用基于 GAN 的学习方法来提高其有效性。文中讨论了两个数据集结果，涵盖了真实和合成环境。

May, 2021

在 3D 室内场景中合成多样的人体动作

提出了一种基于强化学习的方法来处理 3D 室内场景中虚拟人类与环境以及物体的交互，包括生成运动模型、创新的碰撞回避奖励函数、基于标记体和半径场的交互感知奖励函数以及训练策略等多个方面，实验结果表明，该方法在运动的自然性和多样性方面都优于现有的人 - 场景交互综合框架。

May, 2023

基于 Transformer 的场景感知人体姿势生成

本研究针对上下文能力学习进行了探究，基于现有姿势模板的情况下，通过与场景特征映射的交互，采用查询嵌入方法有效预测每个姿势模板的比例和偏移，进而提高人体姿势生成的效果。

Aug, 2023

激光人：自由环境下基于语言引导的场景感知人体运动生成

为了解决现有数据集的限制，我们引入了 LaserHuman，这是一个开创性的数据集，旨在革新 Scene-Text-to-Motion 研究。LaserHuman 通过包含 3D 环境中的真实人类动作，自由形式的自然语言描述，室内外场景的混合以及动态、不断变化的场景而脱颖而出。多样的采集数据和丰富的注释为条件运动生成研究提供了巨大机遇，也可以促进实际应用的开发。此外，为了生成语义一致且物理可行的人体动作，我们提出了一个简单但有效的多条件扩散模型，在现有数据集上达到了最先进的性能。

Mar, 2024

将人类置于场景中：学习 3D 室内环境中的可支配性

本论文探讨了在三维室内场景中预测人类动作所需的可负担性建模技术，并通过引入语义和几何结构来创建大规模数据集合并使用三维姿态合成器预测出语义合理的人体姿态。最终的可负担性预测方法能够持续胜过现有的最新方法。

Mar, 2019

具有空间约束扩散模型的人类感知三维场景生成

通过扩展基于自回归的人体感知 3D 场景生成方法，本研究探索了扩散模型在同时考虑多个输入人体和底图的情况下生成逼真三维场景的潜力，并引入了人物物体碰撞避免和房间边界约束等空间碰撞导向机制来避免与人体动作冲突的场景生成。大量实验结果表明，与现有最先进方法相比，我们的框架可以生成更自然、更逼真的三维场景，具有精确的人体场景交互，并显著减少人物物体碰撞。

Jun, 2024

基于开放词汇的情景和文本背景下的基础人体运动生成（GHOST）

本文提出了一种方法，将开放词汇场景编码器与架构相结合，建立了文本和场景之间的强大连接；方法通过知识蒸馏从现有的开放词汇语义图像分割模型预训练场景编码器，确保了一个共享的文本 - 场景特征空间，并通过引入两种新的正则化损失，用于回归目标对象的类别和尺寸，在条件运动生成时对场景编码器进行微调；通过在 HUMANISE 数据集上进行的评估和知觉研究，我们的方法相比先前最先进的基准模型，可以使目标对象距离指标减少高达 30%；此外，我们的方法还能无缝适应未来提供每个像素文本对齐特征的 2D 分割方法。

Apr, 2024