个性化人脸生成中的同时和细粒度身份 - 表情控制
我们的研究侧重于探索生成性面部图像编辑中明确的细粒度控制,同时生成忠实和一致的个性化面部外貌。我们确定了这项任务的关键挑战是在生成过程中对解缠条件控制的探索,并相应地提出了一种新的基于扩散的框架,称为 DisControlFace,包括两个解耦的组件。
Dec, 2023
提供了一种细致的人脸操作方法,利用三维人脸模型和分离出质地和形状的方法进行纹理和形状不同表情的构建,进而通过生成网络和全连接网络实现表情的合成和准确形状的预测,获得了优越的结果,并被 85% 的用户优先选择,并且在 53% 的情况下,注释员无法可靠地区分合成的图像和真实图像的差别。
Feb, 2019
通过建模特定身份的面部动作为潜在表示(称为样式),并在各种情感类别的语音输入中合成具有目标样式的新动画,我们提出了一种个性化语音驱动的富有表现力的 3D 面部动画综合框架。
Oct, 2023
该论文提出了一种优化自由的面部识别编码器,以在条件面部图像中保留面部标识符,并提出了自我增强的可编辑性学习方法,从而在更快的速度下生成具有不同场景下的保留标识符的图像。
Jul, 2023
利用定性和定量指标以及用户研究,本论文主要研究了生成模型在面部图像生成中的有效性和不足之处,并提出了一个框架来审核生成的面部图像的特征。通过对最先进的文本到图像扩散模型生成的面部进行应用,我们发现面部图像生成存在的限制包括对文本提示的忠实度、人口统计不平衡和分布偏移。此外,我们还提出了一种分析模型,以了解训练数据选择如何影响生成模型的性能。
Sep, 2023
本研究通过引入直接前馈机制和混合引导框架,以人物图像为重点,实现了保留主体身份的图像合成,旨在快速高效生成艺术肖像和身份融合图像,并在定性和定量评估中证明了方法在高保真度和效率方面的优越性。
Dec, 2023
论文旨在综合具有可控面部动作的谈话面孔。通过建立规范空间和多模态运动空间,提出正交性约束来分离身份和运动,从而实现生成外观自然、具有完全可控面部属性和准确的唇部同步的谈话面孔。实验证明,我们的方法在视觉质量和唇同步得分方面均取得了最先进的结果。这是第一个开发出在生成的视频中准确地展示包括唇部,头部姿势和眼动等所有目标面部运动的谈话面孔生成框架,没有超越 RGB 视频与音频的任何附加监督。
Apr, 2023
本文提出了一个基于 ID 保持的讲话头生成框架,改进了以往的方法,使用密集地标点实现精确的几何感知流场与自适应融合源身份,使用元学习方法实现快速个性化模型的快速适应,并且增加时空增强模块以提高细节和时序性,实验表明本文的方法在单次和个性化设置中均显著优于现有技术。
Dec, 2022
通过表情生成对抗网络 (ExprGAN) 和表情控制模块实现更加精细和真实的面部表情编辑,同时提供了可调节表情强度的功能,同时支持不同的应用场景。
Sep, 2017
通过自我监督学习,我们提出了一个两阶段的音频驱动对话人物生成框架,利用 3D 面部特征点作为中间变量,以实现表情、注视和头部姿势的合作对齐,并映射到预训练模型中以生成高质量人脸图像。
Jun, 2024