HanDiffuser: 使用真实手表现生成文本 - 图像

Mar, 2024

HanDiffuser: 使用真实手表现生成文本 - 图像

HanDiffuser: Text-to-Image Generation With Realistic Hand Appearances

Supreeth Narasimhaswamy, Uttaran Bhattacharya, Xiang Chen, Ishita Dasgupta, Saayan Mitra...

TL;DRHanDiffuser 是一种基于扩散的新型架构，通过在生成过程中注入手部嵌入信息，生成具有逼真手部的图像。它包括两个组件：Text-to-Hand-Params 扩散模型用于从输入文本生成 SMPL-Body 和 MANO-Hand 参数，以及 Text-Guided Hand-Params-to-Image 扩散模型用于以先前组件生成的提示和手部参数为条件合成图像。我们在学习和推断期间综合考虑了手部表达的多个方面，包括 3D 形状、关节级手指位置、方向和屈伸状态，以实现稳健学习和可靠性能。我们进行了大量定量和定性实验，并进行了用户研究，证明了我们的方法在生成具有高质量手部的图像方面的有效性。

Abstract

text-to-image generative models can generate high-quality humans, but realism is lost when generating hands. Common artifacts include irregular hand poses, shapes, incorrect numbers of fingers, and physically implausible finger orientations. To generate images with realistic hands, we

text-to-image generative models human generation hand artifacts diffusion-based architecture high-quality hands

发现论文，激发创造

Prompt-Propose-Verify: 一个可靠的基于基础模型的手 - 物互动数据生成框架

通过以文本提示为条件的扩散模型，在人体特征如手部、牙齿等方面生成逼真的图像存在困难。我们假设通过用质量良好的标注数据克服扩散模型的这种缺陷。本文通过使用扩散模型改进手物互动图像生成，采集了一个经过精心注释的手物互动合成数据集，并在其上微调一个稳定的扩散模型。我们通过定性和定量指标（如 CLIPScore、ImageReward、Fedility 和对齐度）评估了图像 - 文本数据集，表现出明显优于当前最先进基准的性能。

Dec, 2023

HOIDiffusion: 生成真实的三维手物体交互数据

利用 HOIDiffusion 方法生成了逼真且多样化的三维手物体交互数据，并将其用于学习 6D 物体位姿估计，提高感知系统的效果。

Mar, 2024

生成模型的带注释手部数据

通过在训练图像中增加三个额外通道，我们提出了一种新的生成模型训练框架，大大提高了生成模型创建手图像的能力。我们通过在合成手图像数据集和包含手部的真实照片上展示了这种方法，并通过使用现成的手部检测器对指关节识别的置信度提高来衡量生成手部图像的质量改进。

Jan, 2024

帮助扩散模型：改进条件人类图像生成的两阶段方法

我们引入了一种新颖的姿势条件的人体图像生成方法，将生成过程分为两个阶段：手的生成和在手周围绘制身体。我们将手生成器训练在多任务设置中，以产生手图像及其相应的分割掩模，并将训练后的模型用于生成的第一阶段。然后，在第二阶段中使用改进的 ControlNet 模型来绘制生成的手周围的身体，产生最终的结果。我们引入了一种新颖的混合技术，在第二阶段中保留手部细节，以一种连贯的方式结合两个阶段的结果。实验评估证明了我们提出的方法在姿势准确性和图像质量上优于现有技术，在 HaGRID 数据集上得到验证。我们的方法不仅提高了生成手部的质量，还提供了对手势的改进控制，推进了姿势条件的人体图像生成的能力。

Mar, 2024

基于图像的三维手部姿态估计的去噪扩散

本文提出了一个新颖的端到端框架，用于从单眼图像或序列中估计三维手部姿势。通过使用用于生成目的的扩散模型并引入显式的正向运动学层，我们确保生成的姿势符合实际。通过在连续帧的时间窗口上添加 Transformer 模块，我们在提升精确度的同时克服了抖动问题。该方法在几个不同的数据集上通过定量和定性评估展示了领先的鲁棒性、泛化性和准确性。

Aug, 2023

HandDiffuse: 通过扩散模型生成的双手交互控制器

提出了一个新的数据集 HandDiffuse12.5M，它是一个包含强烈的双手互动时间序列的数据集，用于可控的互动手势生成；通过扩散模型和设计不同控制器的两种运动表示方法，进一步提出了强基准方法 HandDiffuse；实验证明，该方法在运动生成方面优于现有技术，同时可用于其他数据集的数据增强。

Dec, 2023

DiffHand: 基于扩散模型的端到端手部网格重建

利用一种基于扩散的手部三维网格重建框架 ——DiffHand，利用噪声模拟中间手网格的不确定性分布进行渐进式去噪过程，设计跨模态解码器来更好地模拟手顶点的连通性，从而达到优于先前方法 5.8mm PA-MPJPE 的最优表现。

May, 2023

HandDiff: 图像点云上基于扩散的 3D 手部姿态估计

基于扩散模型，本文提出了 HandDiff，一种基于手型图像点云的迭代去噪准确手势姿态估计模型，旨在通过联合条件和局部细节条件，恢复关键点排列和准确位置，并在四个具有挑战性的手势姿态基准数据集上显著优于现有方法。

Apr, 2024

HumanNorm：高质量和逼真的 3D 人体生成的正常扩散模型学习

通过使用法线贴图对文本到图像传播模型进行微调，使其能够适应文本到法线传播模型，从而提高对三维几何体的二维感知，同时保留从大规模数据集中学习到的先验知识，从而实现高质量和逼真的三维人体生成。

Oct, 2023

SmartPatch: 利用 Patch 鉴别器提高手写字模仿能力

使用 SmartPatch 来增加对当前最先进方法的性能，提高生成手写字的真实性和质量，SmartPatch 将平行训练的手写文本识别系统和单词的单独字符所收集的信息与众所周知的贴片损失相结合，以减少笔级别的伪像。

May, 2021