该研究提出了 3DPE,一种能够根据给定提示(如参考图像或文字描述)以三维感知的方式高效编辑人脸图像的实用工具。通过从三维人像生成器和文本到图像模型中提取的一个轻量级模块,该系统提供面部几何知识和开放词汇编辑能力的先验知识。这种设计相比现有方法具有两个优势。首先,我们的系统使用前馈网络实现实时编辑(每图像约 0.04 秒),比第二位竞争者快 100 倍以上。其次,得益于强大的先验知识,我们的模块能够专注于学习与编辑相关的变化,在训练阶段同时处理各种类型的编辑,并在推断过程中快速适应用户指定的新型编辑(例如,每个案例约需要 5 分钟微调)。为了便于未来研究,代码、模型和界面将公开提供。
Feb, 2024
在本文中,我们通过实验证明了使用生成图像产生具有相同人体姿势的视觉上独特的图像,并提出了一种新颖的多正对比学习方法,该方法充分利用先前生成的图像来学习人体的结构特征。我们将整个学习过程称为 GenPoCCL。与当今最先进方法相比,GenPoCCL 仅使用不到 1% 的数据量,但更有效地捕捉到人体的结构特征,在多种以人为中心的感知任务中超过了现有方法。
Apr, 2024
研究提出了一种新的基于图像感知的渐进 GCN 模块,用于从推理角度估计不可见关节的姿态估计问题,并且通过提出一种新的带有 9k 个注释图像的 Occluded Pose (OCPose) 数据 集的 OPEC-Net 框架来解决在 occlusions 中的定位挑战。
Mar, 2020
通过表情生成对抗网络 (ExprGAN) 和表情控制模块实现更加精细和真实的面部表情编辑,同时提供了可调节表情强度的功能,同时支持不同的应用场景。
Sep, 2017
本文提出了一种可控制特定人脸的姿态和表情的神经网络模型,可以使用另一个面部或模态(如音频)进行控制,以实现轻量、复杂的视频和图像编辑,并且可以通过其他模态的驱动生成过程,而无需对网络进行进一步的训练。
Jul, 2018
本文提出了一种简化面部操纵过程的新框架,包括边界预测阶段和解缠合成阶段,其中边界预测阶段通过边界图像对姿势和表情进行建模,解缠合成阶段则使用两个编码器网络将预测的边界图像和输入的面部图像编码到结构和纹理潜空间中并进行分离,最后基于一个新的高分辨率的人脸操纵数据库进行实验验证。
Mar, 2019
该研究提出了一种个性化 ConvNet 姿态估计器,它可以根据帧与帧之间的时间跨度和人物外貌的特点,在视频中生成高精度的姿态标注,并利用自评模型筛选高质量的标注,并通过自动化的 fine-tune 训练方法将其个性化,相比于通用的 ConvNet,对目标视频的姿态估计得到了大幅提升,表现比现有方法更好。
Nov, 2015
本文提出了一种简洁而有效的框架来生成姿势可控的对话脸,通过使用隐式低维姿势代码对原始面部图像进行操作,实现语音和头部姿势信息的联合非身份嵌入空间,通过调制卷积重建框架,在极端视角稳健的情况下生成准确的唇形同步会话,并具有多种先进功能,例如对话面部前视。
Apr, 2021
该论文介绍了 PoseCrafter,一种根据灵活姿势控制进行个性化视频生成的单次方法,通过稳定扩散和 ControlNet 构建,通过精心设计的推理过程,生成高质量视频而无需对应的真实帧。
May, 2024
本文介绍一种基于多视角融合技术的人物造型编辑方法,通过多视角输入的关键点和纹理信息生成像素级外观检索图,并应用于多视角人物造型和人物图像混合等任务,研究单视角编辑的限制与多视角的优势。
Nov, 2022