Mar, 2024

HanDiffuser: 使用真实手表现生成文本 - 图像

TL;DRHanDiffuser 是一种基于扩散的新型架构,通过在生成过程中注入手部嵌入信息,生成具有逼真手部的图像。它包括两个组件:Text-to-Hand-Params 扩散模型用于从输入文本生成 SMPL-Body 和 MANO-Hand 参数,以及 Text-Guided Hand-Params-to-Image 扩散模型用于以先前组件生成的提示和手部参数为条件合成图像。我们在学习和推断期间综合考虑了手部表达的多个方面,包括 3D 形状、关节级手指位置、方向和屈伸状态,以实现稳健学习和可靠性能。我们进行了大量定量和定性实验,并进行了用户研究,证明了我们的方法在生成具有高质量手部的图像方面的有效性。