M$^3$Face：一种统一的多模态多语言人脸生成与编辑框架

Feb, 2024

M$^3$Face：一种统一的多模态多语言人脸生成与编辑框架

M$^3$Face: A Unified Multi-Modal Multilingual Framework for Human Face Generation and Editing

Mohammadreza Mofayezi, Reza Alipour, Mohammad Ali Kakavand, Ehsaneddin Asgari

TL;DRM3Face 是一个统一的多模态多语言框架，用于可控的人脸生成和编辑，它使用户能够仅通过文本输入来自动生成控制模态，如语义分割或面部标志，并随后生成人脸图像。

Abstract

human face generation and editing represent an essential task in the era of computer vision and the digital world. Recent studies have shown remarkable progress in →

human face generation editing multi-modal controllable m3face

发现论文，激发创造

通过直接的跨模态映射和几何规则化进行快速的文本到 3D 感知人脸生成和操纵

提出了一种高效并且准确的网络，用于快速生成和处理 3D 感知人脸，名为 $E^3$-FaceNet，通过直接映射文本指令到 3D 感知的视觉空间，实现类似图片的 3D 人脸生成和处理，并显著提高推断速度。

Mar, 2024

多任务多模态自监督学习的面部表情识别

通过多模态多任务自监督学习方法，利用无标签的野外视频数据，实现了面部表情识别的模型，并在多个基准测试中取得了优秀的性能表现。

Apr, 2024

多模态条件下的三维人脸几何生成

我们提出了一种新的方法，用于多模态条件下的三维人脸几何生成，可以通过多种不同的条件信号实现对输出身份和表情的用户友好控制。该方法基于扩散过程，在一个二维参数化的 UV 领域中生成三维几何形状，并通过交叉注意层 (IP-Adapter) 将每个调节信号传递给几何生成模型，提供细粒度的用户控制，产生具有高分辨率几何的易于使用的三维人脸生成工具。

Jul, 2024

Media2Face: 借助多模态引导生成共话脸部动画

从语音中合成 3D 面部动画引起了极大的关注。我们通过三位一体的方法来应对这一挑战，首先介绍了广义神经参数面部特征 (GNPFA)，然后利用 GNPFA 从大量的视频中提取高质量的表情和准确的头部姿势，最后，我们提出了 Media2Face，这是一个在 GNPFA 潜在空间中的扩散模型，用于生成与音频、文本和图像相关的共语面部动画。大量实验表明，我们的模型不仅在面部动画合成方面具有高保真性，还扩大了 3D 面部动画的表现力和风格适应性。

Jan, 2024

4M：大规模多模态蒙版建模

通过提出一种名为 4M 的多模态训练方案，将文本、图像、几何和语义模态，以及神经网络特征图等多种输入 / 输出模态统一到一个 Transformer 编码器 - 解码器模型中进行训练，论文展示了 4M 在训练多功能且可扩展的视觉基础模型方面的潜力和优势，并为多模态学习在视觉和其他领域的进一步探索提供了基础。

Dec, 2023

高保真的通用情感交流人脸生成 —— 基于多模态情感空间学习

本研究提出了一种更灵活、更通用的基于文本、图像和语音情感模态的多模情感编码器，以及一个面向情感的音频到 3DMM 转换器和一个高保真情感脸生成器，通过充分利用深度神经网络，实现了情感控制的灵活性和可扩展性，进而提高了合成图像的质量和细节。

May, 2023

具有生成先验的多模态人脸风格化

本文提出了一种支持多模式脸部艺术风格化的框架，利用 StyleGAN 的优势，并将其集成到编码器 - 解码器架构中进行高质量的面部生成，输出结果显示该框架在一次和零次风格化任务中均能实现比现有方法更出色的面部风格化性能。

May, 2023

Human-M3：一个用于户外场景中的多视角多模态三维人体姿态估计的数据集

提出 Human-M3，一个室外多模态多视角多人姿势数据库，包括多视角 RGB 视频和对应的点云；基于多模态数据输入，提出一种姿势准确的算法以生成地面真实标注，在室外多人场景中解决多视角 RGB 视频中存在的人体定位和匹配模糊问题，并生成可靠的地面真实标注；多种不同模态算法的评估表明该数据库具有挑战性且适用于未来研究；此外，还提出了一种基于多模态数据输入的 3D 人体姿势估计算法，展示了多模态数据输入在 3D 人体姿势估计中的优势。

Aug, 2023

Multiface: 神经人脸渲染数据集

该研究介绍了一个多视角，高分辨率的人脸数据集，通过进行替代卷积编码器及对条件对抗网络（VAE）进行验证，对研究区域的深度插值进行了实验讨论。

Jul, 2022

M3D：利用多模态大型语言模型推进 3D 医学图像分析

该研究论文通过大规模的三维多模态医学数据集 M3D-Data 和多模态大型语言模型 M3D-LaMed，在各种三维医学任务上实现了先进的医学图像分析方法，并提出了用于自动评估的新的三维多模态医学基准 M3D-Bench。

Mar, 2024