LEED: 基于分离的无标签表达式编辑
本研究提出通过 StyleGAN 生成器的潜在空间编辑面部属性,通过训练专门的潜在空间转换网络并在损失函数中添加显式的分离和身份保存项来控制和保护身份,并介绍了一个将面部编辑推广到视频的流程。在真实图像和视频方面表现出出色的性能。
Jun, 2021
借助学习解耦的潜在表示,包括新颖的网络架构、解耦损失和新的编辑过程,我们旨在解决通过文本进行三维形状编辑时面临的挑战,并提出了称为逐部分编辑精度的新度量方法来评估编辑的区域范围,并表明我们的方法在编辑局部精度方面优于现有方法约 20%,在语言参考分辨率准确性方面高达 6.6%。
Dec, 2022
本文提出了一种统一的框架 LEAF(Hierarchical dEcoupling And Fusing),通过协调与半监督面部表情识别相关的表征和伪标签,解决了标签稀缺性带来的挑战,在三个层次上操作:语义、实例和类别,并在基准数据集上进行了广泛实验证明其在标注和无标注数据方面较现有方法表现更好,并且该相关策略可以无缝集成到现有的半监督框架中,从而获得显著的性能提升。
Apr, 2024
本文提出了一种新颖的无监督解缠面部表情和身份表示的框架 ——LatentFace,并使用 3D 感知的潜入模型来解决这一问题。该方法在面部表情识别和面部验证等无监督面部表示学习模型中取得了最先进的性能。
Sep, 2023
本研究提出了一个用于言语生成的高效解开耦合框架 (EDTalk),该框架具有分解面部动态的能力,允许对嘴型、头部姿势和情绪表达进行个别操作,并能根据视频或音频输入进行条件设置。我们通过三个轻量级模块将面部动态分解为分别代表嘴部、姿势和表情的三个独立潜在空间,并利用可学习的基向量对每个空间内的特定运动进行定义。我们通过在基向量之间施加正交性约束并设计了高效的训练策略来加速训练过程,同时保证独立性。学习到的基向量存储在相应的存储器中,以实现与音频输入的共享先验知识。另外,鉴于每个空间的特性,我们还提出了一个音频到运动模块,用于音频驱动的言语生成。实验证明了 EDTalk 的有效性。
Apr, 2024
本文提出了一个结合了低分辨率可编辑性和高质量的生成模型,是 3D-semantics-aware 方法的新途径,在视图一致、语义分离的面部图像方面具有状态 - of-the-art 的性能、忠实度和效率。
May, 2022
该研究探索了如何采用连续情感表述来控制自动表情编辑,通过深度生成模型,根据具有两个维度的连续情感标签对面部图像中的面部表情进行操作,并通过定量和定性分析展示了模型的功能。
Jun, 2020
本文提供了一种使用预训练网络来学习数据的解缠表示的方法,以实现最小的监督,同时展示了该方法在头部图像领域上成功将身份从其他面部属性中解缠并显示出较好的评估结果。
May, 2020
DeepFaceEditing 是一种针对面部图像的结构解缠框架,旨在支持面部生成和编辑,具有几何和外表的解缠控制能力。该方法采用了局部到全局的方法,将面部组件图像分解为几何和外貌表示,并使用全局融合模块进行一致融合,以提高生成质量,并利用草图辅助提取更好的几何表示,同时也支持通过草图进行直观的几何编辑。该方法相较于最先进的方法表现出更优秀的细节和外观控制能力。
May, 2021