生成模型的带注释手部数据
通过在卷积层中引入单一输入通道,加入与相对 $n$ 维笛卡尔坐标系相关的信息,我们展示了如何改进生成对抗网络(GAN)和变分自动编码器(VAE)生成的手部和面部图像的质量。
Jan, 2024
HanDiffuser 是一种基于扩散的新型架构,通过在生成过程中注入手部嵌入信息,生成具有逼真手部的图像。它包括两个组件:Text-to-Hand-Params 扩散模型用于从输入文本生成 SMPL-Body 和 MANO-Hand 参数,以及 Text-Guided Hand-Params-to-Image 扩散模型用于以先前组件生成的提示和手部参数为条件合成图像。我们在学习和推断期间综合考虑了手部表达的多个方面,包括 3D 形状、关节级手指位置、方向和屈伸状态,以实现稳健学习和可靠性能。我们进行了大量定量和定性实验,并进行了用户研究,证明了我们的方法在生成具有高质量手部的图像方面的有效性。
Mar, 2024
本论文提出 HandGAN,一种采用多尺度感知判别器的循环一致性对抗性学习方法,旨在将合成的手部图像转换为真实领域中的图像,从而提高人工合成手部图像的逼真程度。
Mar, 2021
利用生成对抗网络方法训练的人工神经网络对无法识别的手势进行分类,旨在提高手势分类准确率和新手势的识别率。经测试,该方法会导致一些已知手势分类不正确,但这种方式已经可以在训练准确率损失 5% 的代价下取得 95.4% 或 90.2% 的新手势检测率。
Apr, 2023
我们引入了一种新颖的姿势条件的人体图像生成方法,将生成过程分为两个阶段:手的生成和在手周围绘制身体。我们将手生成器训练在多任务设置中,以产生手图像及其相应的分割掩模,并将训练后的模型用于生成的第一阶段。然后,在第二阶段中使用改进的 ControlNet 模型来绘制生成的手周围的身体,产生最终的结果。我们引入了一种新颖的混合技术,在第二阶段中保留手部细节,以一种连贯的方式结合两个阶段的结果。实验评估证明了我们提出的方法在姿势准确性和图像质量上优于现有技术,在 HaGRID 数据集上得到验证。我们的方法不仅提高了生成手部的质量,还提供了对手势的改进控制,推进了姿势条件的人体图像生成的能力。
Mar, 2024
本研究介绍了一种基于单目 RGB 彩色序列的实时 3D 手部追踪的方法,其结合了卷积神经网络和运动学 3D 手模型,提出了一种基于几何一致的图像到图像翻译网络的新方法来合成训练数据,并在拥有遮挡和不同相机视角的情况下进行了实验,该方法在 RGB 序列跟踪中优于当前最先进的技术。
Dec, 2017
通过以文本提示为条件的扩散模型,在人体特征如手部、牙齿等方面生成逼真的图像存在困难。我们假设通过用质量良好的标注数据克服扩散模型的这种缺陷。本文通过使用扩散模型改进手物互动图像生成,采集了一个经过精心注释的手物互动合成数据集,并在其上微调一个稳定的扩散模型。我们通过定性和定量指标(如 CLIPScore、ImageReward、Fedility 和对齐度)评估了图像 - 文本数据集,表现出明显优于当前最先进基准的性能。
Dec, 2023
该论文提出了一种学习为基础的方法,使用 3D 姿态信息来合成逼真、多样和保留 3D 姿态的手图像,并通过基于几何的课程学习策略使增强数据能够持续提高最先进的 3D 手位姿估计器的定量性能。
Oct, 2020
本文介绍了 HandsOff 框架,它可以在使用不到 50 个已标记图像的情况下训练,生成数量不限的带有标签的合成图像,这个方法绕过了现有方法的实际缺点,同时具有优异的性能表现。
Dec, 2022
提出了一种新的手势生成对抗网络 (GestureGAN) ,通过显式地利用手部骨骼信息和两个新的 loss 函数:color loss 和 cycle-consistency loss 来实现手势翻译任务。在两个广泛使用的基准数据集上进行的大量实验表明,提出的 GestureGAN 在非约束性手势翻译任务中实现了最先进的性能,并生成高质量、逼真的图像,可用作改进手势分类器性能的数据增强。
Aug, 2018