稳定姿态：利用变形金刚进行姿态引导的文本到图像生成

Jun, 2024

稳定姿态：利用变形金刚进行姿态引导的文本到图像生成

Stable-Pose: Leveraging Transformers for Pose-Guided Text-to-Image Generation

Jiajun Wang, Morteza Ghahremani, Yitong Li, Björn Ommer, Christian Wachinger

TL;DR通过引入粗糙到精细的注意掩蔽策略到视觉Transformer(ViT)中，我们提出了一个新的适配器模型Stable-Pose，以在生成图像时获得准确的姿势指导，并通过层级方式从粗糙到精细的过渡来提供一种对齐姿势表示的优化方式。

Abstract

Controllable text-to-image (T2I) diffusion models have shown impressive performance in generating high-quality visual content through the incorporation of various conditions. Current methods, however, exhibit limited performance when guided by skeleton human poses, especially in comple

发现论文，激发创造

TIPS: 文本驱动的姿势合成

本研究提出了一种三步走的文本姿势转移方法，解决了现有姿势转移算法的缺陷，并在DeepFashion数据集上新增了姿势注释，通过实验得出了显著的定量和定性分数。

Jul, 2022

HDFormer：用于三维人体姿态估计的高阶有向Transformer

本文提出了使用多阶注意力模块与高阶关节关联的高阶有向变换器（HDFormer）进行人体姿势估计的新框架，该框架可以利用细粒度的人体先验知识来弥补现有方法在处理关节点重叠和快速变化时的不足，实现了实时准确的3D姿态估计。

Feb, 2023

ConvFormer: 利用动态多头卷积注意力实现 Transformer 模型的参数减少，用于 3D 人体姿势估计

本文提出了ConvFormer：一种新型的卷积变压器，新增了一种动态的多头卷积自注意机制用于单目3D人体姿势估计。通过对人体各关节点之间的关系进行建模，利用时间关节特征的新概念进行完全的时间信息融合，成功地在三个基准数据集上实现了SOTA水平的结果，相对于以前的变压器模型取得了显著的参数降低。

Apr, 2023

HumanSD: 基于原生骨架导向的人体图像生成扩散模型

本文提出了一种基于本地细骨架引导扩散模型的可控人类图像生成方法，称为HumanSD，该方法使用新颖的热图引导去噪损失来微调原始稳定扩散模型，从而有效地增强了训练模型时给定的骨骼条件，并提高了图像质量。

Apr, 2023

PoseVocab: 为人体形象建模学习联合结构的姿态嵌入

提出了一种名为PoseVocab的编码技术，该技术基于训练动态的多视角RGB视频，构建关键姿势和潜在嵌入，以有效地编码动态人体外观细节，从而使得在新的姿势下实现逼真且广泛的动画成为可能。

Apr, 2023

从像素中看姿态：在视觉 Transformer 中学习姿态感知表征

本文探讨了将姿态结合到RGB数据中，以学习更细颗粒度和视角不可知的多元表示，并提出了两种学习姿态感知表示的策略，分别为PAAB和PAAT，它们在多个不同的下游视频分析任务中有效，其中PAAT略胜于PAAB。

Jun, 2023

RePoseDM：用于姿势导向图像合成的循环姿势对齐和梯度引导

本研究提出了一种基于循环姿态对齐和梯度引导的方法，可以生成具有真实外观和无瑕疵姿态转移的人物图像。经过广泛的实验证明，该方法能够在复杂场景下生成具有真实感的姿态转移，并且通过人工评测证明了其有效性。

Oct, 2023

使用扩散模型进行时间一致姿势指导的人体图像动画

提出了一种姿势驱动的人体图像动画方法TCAN，通过利用预训练的ControlNet以及适应LoRA到UNet层等技术，实现了对错误姿势的鲁棒性和时间一致性，并通过分析注意力图和引入温度图等方法进一步优化了动画质量。

Jul, 2024

PoseEmbroider：朝向一种三维视觉语义感知的人体姿态表示

本研究解决了现有方法在区分细致或不常见的人体姿态时的不足，提出了一种结合三维姿态、个体图像和文字描述的新型姿态表示方法。新模型采用基于变压器的架构，支持多模态输入，显著提高了信息整合能力，对细粒度指令生成和姿态回归任务具有重要影响。

Sep, 2024

GUNet：用于稳定和多样化姿态生成的图卷积网络联合扩散模型

本研究旨在解决基于文本生成多样、结构正确且美观的人体姿态骨架图像的挑战。作者提出了一种名为PoseDiffusion的框架，该框架结合了图卷积神经网络，能够有效学习人体骨架的空间关系。实验结果显示PoseDiffusion在文本驱动的姿态骨架生成方面优于现有方法，实现了提高的稳定性和多样性。

Sep, 2024