M$^3$Face:一种统一的多模态多语言人脸生成与编辑框架
提出了一种高效并且准确的网络,用于快速生成和处理 3D 感知人脸,名为 $E^3$-FaceNet,通过直接映射文本指令到 3D 感知的视觉空间,实现类似图片的 3D 人脸生成和处理,并显著提高推断速度。
Mar, 2024
我们提出了一种新的方法,用于多模态条件下的三维人脸几何生成,可以通过多种不同的条件信号实现对输出身份和表情的用户友好控制。该方法基于扩散过程,在一个二维参数化的 UV 领域中生成三维几何形状,并通过交叉注意层 (IP-Adapter) 将每个调节信号传递给几何生成模型,提供细粒度的用户控制,产生具有高分辨率几何的易于使用的三维人脸生成工具。
Jul, 2024
从语音中合成 3D 面部动画引起了极大的关注。我们通过三位一体的方法来应对这一挑战,首先介绍了广义神经参数面部特征 (GNPFA),然后利用 GNPFA 从大量的视频中提取高质量的表情和准确的头部姿势,最后,我们提出了 Media2Face,这是一个在 GNPFA 潜在空间中的扩散模型,用于生成与音频、文本和图像相关的共语面部动画。大量实验表明,我们的模型不仅在面部动画合成方面具有高保真性,还扩大了 3D 面部动画的表现力和风格适应性。
Jan, 2024
通过提出一种名为 4M 的多模态训练方案,将文本、图像、几何和语义模态,以及神经网络特征图等多种输入 / 输出模态统一到一个 Transformer 编码器 - 解码器模型中进行训练,论文展示了 4M 在训练多功能且可扩展的视觉基础模型方面的潜力和优势,并为多模态学习在视觉和其他领域的进一步探索提供了基础。
Dec, 2023
本研究提出了一种更灵活、更通用的基于文本、图像和语音情感模态的多模情感编码器,以及一个面向情感的音频到 3DMM 转换器和一个高保真情感脸生成器,通过充分利用深度神经网络,实现了情感控制的灵活性和可扩展性,进而提高了合成图像的质量和细节。
May, 2023
本文提出了一种支持多模式脸部艺术风格化的框架,利用 StyleGAN 的优势,并将其集成到编码器 - 解码器架构中进行高质量的面部生成,输出结果显示该框架在一次和零次风格化任务中均能实现比现有方法更出色的面部风格化性能。
May, 2023
提出 Human-M3,一个室外多模态多视角多人姿势数据库,包括多视角 RGB 视频和对应的点云;基于多模态数据输入,提出一种姿势准确的算法以生成地面真实标注,在室外多人场景中解决多视角 RGB 视频中存在的人体定位和匹配模糊问题,并生成可靠的地面真实标注;多种不同模态算法的评估表明该数据库具有挑战性且适用于未来研究;此外,还提出了一种基于多模态数据输入的 3D 人体姿势估计算法,展示了多模态数据输入在 3D 人体姿势估计中的优势。
Aug, 2023
该研究论文通过大规模的三维多模态医学数据集 M3D-Data 和多模态大型语言模型 M3D-LaMed,在各种三维医学任务上实现了先进的医学图像分析方法,并提出了用于自动评估的新的三维多模态医学基准 M3D-Bench。
Mar, 2024