基于文本指导的人物图像合成
本研究提出了一种三步走的文本姿势转移方法,解决了现有姿势转移算法的缺陷,并在 DeepFashion 数据集上新增了姿势注释,通过实验得出了显著的定量和定性分数。
Jul, 2022
本文提出了一种新的姿态转换方法,通过使用组合神经网络,预测人的轮廓,服装标签和纹理,并在推理时利用训练有素的网络生成一个外观及其标签的统一表示,以对姿势变化做出响应,并使用背景完成外观的呈现,从而实现保留人物身份和外观,具有时间上的一致性和泛化能力。
Dec, 2020
本文提出了一种基于新颖的深度生成模型的图像迁移方法,可以在保持服装一致的情况下将一个人的图像从一个给定的姿势转移至一个新的姿势,使用图像编码器、姿势编码器和解码器的结构,同时利用两个鉴别器来指导产生过程。经过严格的实验,在两个数据集上定量和定性地验证了该方法的效果。
Jun, 2019
本文提出了一种使用生成式对抗学习的新方法,用于综合产生任意姿势的具有照片级真实感的人物图像。研究通过无监督的方式来处理此问题,并且将其分解成两个主要子任务,一是姿势条件的双向生成器,二是定义一个新型的损失函数,包含内容和风格项,旨在生成高感知质量的图像,可以在 DeepFashion 数据集上进行广泛的实验验证。
Sep, 2018
本论文提出了新颖的姿势引导人物生成网络(PG2),该网络可以基于人的图像和新颖的姿态来合成人体图像。PG2 的生成框架明确利用了姿势信息,并包含两个关键阶段:姿势整合和图像细化。实验表明,该模型可以生成高质量、具有令人信服细节的人体图像。
May, 2017
通过文本引导的三维人脸合成,从生成到编辑的统一框架,通过解耦生成几何和纹理来提高几何细节的生成效果,并利用生成几何作为纹理生成的条件,进一步提升几何与纹理的一致性结果;通过预训练扩散模型来更新面部几何或纹理以实现顺序编辑,并引入 UV 域一致性保持正则化以防止对不相关面部属性的无意更改,并提出自导向一致性权重策略以提高编辑效果与保持一致性;通过全面实验展示了该方法在人脸合成方面的优越性。
Dec, 2023
本文提出了 Text2Performer 算法,基于文本描述生成拥有精细动作的逼真人类视频,并提供了 Fashion-Text2Video 数据集用于辅助该任务。其中包括了两个新设计:将 VQVAE 潜空间表示细分为人物形象和姿势表示,并通过连续 VQ-diffuser 对姿势编码进行采样,得到更好的动作建模。该算法在多项实验中表现出成果丰硕。
Apr, 2023
本文提出一种名为 Text2Human 的控制性框架,用于基于文本的生成高质量和多样化的人类图像。在此框架下,我们建立了一个分层的纹理感知码书,以存储不同类型纹理的多尺度神经表征,并使用混合专家的扩散变换采样器采样码书中的索引。通过使用细粒度文本输入,生成的图像具有更高的质量和更多的多样性,拥有比现有方法更好的性能。
May, 2022
本文介绍了一种基于模块化生成神经网络的方法,用来合成出一张人的图像并保证姿势、外貌和背景的一致性,其中包括了基于图像和动作的训练资料,以及对抗性判别器等技术来实现姿势合成,最终能够生成与动作类别准确匹配的图像,同时还可以将多个动作合成为视频。
Apr, 2018