HumanSD: 基于原生骨架导向的人体图像生成扩散模型
使用单个参考图像生成 3D 人体模型是具有挑战性的,本文提出了一种从单视角输入生成 3D 人体模型的框架 HumanRef,通过引入参考引导评分蒸馏采样(Ref-SDS)方法有效地将图像指导纳入生成过程,实现了生成具有精细几何结构、逼真纹理和视角一致性的 3D 服装人物。
Nov, 2023
通过将高容量的二维扩散模型与形状引导扩散相结合并利用逆渲染技术,从单一图像中逐步合成多个视角的完全纹理化高分辨率三维网格,实现了广泛的服装人物 360 度合成的照片级别结果。
Nov, 2023
通过使用法线贴图对文本到图像传播模型进行微调,使其能够适应文本到法线传播模型,从而提高对三维几何体的二维感知,同时保留从大规模数据集中学习到的先验知识,从而实现高质量和逼真的三维人体生成。
Oct, 2023
通过建立大规模人体数据集 HumanVerse,结合深度学习模型和结构引导生成器,我们提出了 HyperHuman 方法,实现了生成真实自然的人体图像。
Oct, 2023
我们提出了一种基于形状条件的运动扩散模型(SMD),该模型可以直接在网格格式中生成运动序列,并结合了频谱 - 时间自编码器(STAE)以在频谱域内利用跨时依赖关系。通过广泛的实验评估,我们证明了 SMD 不仅可以生成栩栩如生的真实动作,而且在文本转换和动作转换任务中与最先进的方法相比具有竞争力的性能。
May, 2024
本文提出了 DiffusionPose,将 2D 人体姿态估计问题定义为噪声热图的关键点热图生成问题,并通过添加噪声,将关键点扩散到随机分布中,学习扩散模型从噪声热图中恢复与图像特征相关的地面真值热图,从而实现从初始化热图的漸進式降噪方式生成热图。此外,本文还进一步探究了从人体结构信息中提取条件以提高 DiffusionPose 的性能。经过广泛的实验,证明了 DiffusionPose 的优越性,在广泛使用的 COCO、CrowdPose 和 AI Challenge 数据集上分别提高了 1.6、1.2 和 1.2 mAP。
Jun, 2023
在零样本文本到 3D 人体生成方面的最新进展中,通过使用人体模型先验(例如,SMPL)或 Score Distillation Sampling(SDS)与预训练的文本到图像扩散模型,已经取得了突破性的成果。然而,由于相对较弱的扩散指导,SDS 可能提供不准确的梯度方向,因为它倾向于产生过度平滑的结果并生成与详细网状几何不一致的人体纹理,因此,直接利用现有的高保真度文本到 3D 人体纹理化策略是具有挑战性的。在这项工作中,我们提出了一种称为 PaintHuman 的模型,以解决这两个方面的挑战。我们首先提出了一种新的得分函数,称为降噪得分蒸馏(Denoised Score Distillation,DSD),通过引入负梯度分量来迭代地校正梯度方向并生成高质量的纹理。此外,我们使用深度图作为几何指导,以确保纹理在语义上与人体网状表面对齐。为了保证渲染结果的质量,我们采用了几何感知网络来预测表面材料并渲染逼真的人体纹理。与最先进的方法进行了大量实验证明了我们方法的有效性。
Oct, 2023
该研究论文探索将人类中心先验直接整合到模型微调阶段,通过人类中心对齐损失强化文本提示中的人类相关信息,以及通过扩散过程中的比例感知和逐步约束确保语义详细性和人类结构准确性,从而提高了合成基于用户编写提示的高质量人类图像的方法。
Mar, 2024
提出了一种新的流程 SiTH,该流程将基于图像的扩散模型与 3D 网格重建相结合,通过将单视图重建问题分解为幻觉和重建子问题来推断未知的人体形状、服装和纹理信息。该方法通过强大的生成扩散模型重新生成输入图像中的外貌,并借助有皮肤的身体网格作为指导从输入图像和背视图图像中恢复出完整的人体纹理网格。在仅使用约 500 个 3D 人体扫描进行训练的同时,保持了方法的普遍性和鲁棒性。在两个 3D 重建基准测试上进行了大量实验和用户研究,证明了该方法在从各种未见图像中生成逼真、带纹理的 3D 人体方面的有效性。
Nov, 2023
DreamAvatar 是一个生成高质量、可控制姿态的 3D 人类头像的框架,它使用了可训练的 NeRF 生成 3D 点密度和颜色特征以及预先训练的文本到图像扩散模型提供 2D 自监督。通过 SMPL 模型提供粗略的姿势和形状指导生成,并引入了包含规范空间和观察空间的双重空间设计,它们之间由 NeRF 学习的变形场联系,从规范空间将优化的纹理和几何转移到目标位置头像,添加正常一致性正则化以获得更生动的几何和纹理。经过广泛的评估,证明 DreamAvatar 明显优于现有方法,为文本和形状引导的 3D 人体生成设立了新的技术水准。
Apr, 2023