基于 Transformer 的场景感知人体姿势生成

MMAug, 2023

基于 Transformer 的场景感知人体姿势生成

Scene-aware Human Pose Generation using Transformer

Jieteng Yao, Junjie Chen, Li Niu, Bin Sheng

TL;DR本研究针对上下文能力学习进行了探究，基于现有姿势模板的情况下，通过与场景特征映射的交互，采用查询嵌入方法有效预测每个姿势模板的比例和偏移，进而提高人体姿势生成的效果。

Abstract

affordance learning considers the interaction opportunities for an actor in the scene and thus has wide application in scene understanding and intelligent robotics. In this paper, we focus on contextual affordance learn

affordance learning contextual affordance learning human pose generation pose templates transformer-based methods

发现论文，激发创造

将人类置于场景中：学习 3D 室内环境中的可支配性

本论文探讨了在三维室内场景中预测人类动作所需的可负担性建模技术，并通过引入语义和几何结构来创建大规模数据集合并使用三维姿态合成器预测出语义合理的人体姿态。最终的可负担性预测方法能够持续胜过现有的最新方法。

Mar, 2019

将人置于其所在之处：考虑可支配性的人体插入场景

本文提出了一种基于场景本质的方法来插入人物图像，使用扩散模型训练出可以在场景上自然插入的人物，支持交互式编辑。通过定量评估，证明了该方法比之前的方法更能合成出自然的人物形象和人 - 场景交互作用。

Apr, 2023

自然移动，灵活互动：利用场景可控生成语言引导的人体动作

在 3D 环境中，尽管在文本到运动合成方面取得了重大进展，但仍存在许多挑战，我们通过引入一种新的两阶段框架，使用场景赋能作为中间表示，有效地链接 3D 场景定位和条件运动生成，克服了生成多模态条件信号下的人类运动困难，特别是在缺乏广泛的语言 - 场景 - 运动数据对的有限数据训练时，验证了模型的出色泛化能力。

Mar, 2024

几何姿态可供性：带场景约束的三维人体姿态

通过使用基于视觉的场景几何形状信息，我们提出了一种用于改善人体姿态估计的新颖机制：多层深度图。我们展示了这种方法可以提高 3D 姿态估计的精度。

May, 2019

在 3D 场景中合成长期的 3D 人体动作和互动

本文提出一种层次生成框架，通过优化多个几何约束和建模场景互动和应用来合成涉及长期 3D 人体动作的逼真生成，并在实验中得出了比之前更好的实验结果。

Dec, 2020

电视剧批量观看：从情景喜剧中推广可负担性学习

本文描述了如何通过提取七个 sitcom 中人物与场景中的不同物体互动的场景，创建了一个规模超过 10K 的数据集，提出了一个两步走的方法用于预测新场景下的 affordances，包括使用一个 Varitional Autoencoder 来提取 affordances 的尺度和变形。研究结果显示，数据规模对于学习一个具有普适性和鲁棒性的 affordances 模型是至关重要的。

Apr, 2018

仿生场景生成

利用一个大规模的生成对抗网络，驱动人体姿态和场景之间微妙的关系，使得该网络能够产生出提供逼真姿态信息的虚拟场景。此网络在复杂度和大小方面均超过了 StyleGAN2，并能在各种场景下使用，例如生成带有人体姿态的场景，提升照片质量等。

Dec, 2021

人类动作生成的背景及目的

我们提出了一种新的方法，基于神经离散表示学习，用于生成人类运动以填充 3D 室内场景，并利用场景、上下文信息等多种组合的调控信号进行控制，解决了现有方法的局限性，使得模型在质量和多样性上优于现有的特定上下文信息的方法。

Apr, 2024

基于解耦结构的场景内多样化 3D 人体姿态生成

本文提出了一种新颖的方法，用于在具有语义控制的场景中生成多样化的 3D 人体姿势。

Jun, 2024

面向场景的人体运动合成生成网络

本文提出了一种新框架，将场景和人体运动相互作用考虑在内，使用生成任务将人体运动的分布因子分解，并使用基于 GAN 的学习方法来提高其有效性。文中讨论了两个数据集结果，涵盖了真实和合成环境。

May, 2021