Blendshapes GHUM: 实时单目面部形状混合预测

Sep, 2023

Blendshapes GHUM: 实时单目面部形状混合预测

Blendshapes GHUM: Real-time Monocular Facial Blendshape Prediction

Ivan Grishchenko, Geng Yan, Eduard Gabriel Bazavan, Andrei Zanfir, Nikolai Chinaev...

TL;DRBlendshapes GHUM 是一个面向设备的机器学习流程，在现代移动手机上从单个单眼 RGB 图像中以 30+FPS 预测 52 个面部混合形状系数，并支持虚拟化头像等面部动作捕捉应用。我们的主要贡献是：i）一种无需注释的离线方法，可从现实世界的人体扫描获取混合形状系数，ii）基于面部标记预测混合形状系数的轻量级实时模型。

Abstract

We present blendshapes ghum, an on-device ml pipeline that predicts 52 facial blendshape coefficients at 30+ FPS on modern mobile phones, from a single monocular RGB image and enables →

blendshapes ghum on-device ml pipeline facial blendshape coefficients facial motion capture applications facial landmarks

发现论文，激发创造

BlazePose GHUM Holistic: 实时 3D 人类关键点和姿势估计

BlazePose GHUM Holistic 是一种轻量级神经网络模型，专门用于实时在设备上进行 3D 人体地标和姿势估计，包括阿凡达控制、健身追踪和 AR / VR 效果等，并具有 3D 真实数据获取的新方法、额外手部地标的更新的 3D 身体追踪和从单眼图像中完整身体姿态估计的主要贡献。

Jun, 2022

使用移动 GPU 从单目视频实时获取面部表面几何信息

本文提出了一种基于神经网络的端到端模型，从单个摄像头输入中推断出人脸的近似 3D 网格表示，适用于 AR 应用程序。该模型具有相对密集的 468 个顶点网格模型，非常适合基于人脸的 AR 效果。该模型在移动 GPU 上具有超级实时推断速度（100-1000+FPS，取决于设备和模型变体），并且预测质量与同一图像的手动注释的变化相当。

Jul, 2019

头像动画的 3D 高斯混合形状

我们介绍了用于建模逼真头部 Avatar 的 3D 高斯混合形状。通过将一个单眼视频作为输入，我们学习到由中性表情组成的基本头部模型以及一组表情混合形状，其中每个形状对应于经典参数化面部模型中的一个基本表情。通过对表情系数进行高斯线性混合，中性模型和表情混合形状可以有效地生成任意表情的 Avatar 模型。与现有方法相比，我们的高斯混合形状表示更好地捕捉了输入视频所展示的高频细节，同时实现了更优越的渲染性能。

Apr, 2024

imGHUM: 三维人体形状和关节姿态的隐式生成模型

imGHUM 是一个基于有效隐式模型，能够生成细节丰富人体模型的生成模型，实现了全人体的大规模形态与姿态的查询。

Aug, 2021

单目 RGB 视频生成神经头像

我们提出了神经头像，该方法能够显式建模动画人物头像的表面几何形状和外观，是虚拟现实和其他电影或游戏应用中数字人物的一种有效表示方法，它能够从单目 RGB 人像视频中学习，能够精确地外推到未知姿态和观察角度，并产生自然的表情和清晰的纹理细节。

Dec, 2021

通过神经逆渲染从面部视频生成高质量的网格混合形状

通过利用最新的神经逆向渲染技术，我们提出了一种从单个或稀疏多视角视频中重建基于网格的混合形状系统的新技术，该技术构建了一个将顶点位移参数化为具有四面体连接的微分坐标的变形表示，通过在该表示中构建一组语义规则，实现了混合形状和表情系数的联合优化，并提出了神经回归器来模拟时变动作参数以支持用户友好的多视角设置。实验证明，我们能够通过接受单个或稀疏多视角视频的灵活输入，重建出个性化的高保真混合形状，这些形状在几何和语义上都非常准确，并且与工业动画流程兼容。代码和数据将会发布。

Jan, 2024

个性化面部建模以改进面部重建和运动重新定向

提出了一种基于结合使用大量视频数据、学习不同用户的个性化面部模型以及独特表情的动态图像映射，可以准确捕捉广泛条件下的微细面部动态及更准确地重构面部和面部运动，比现有技术达到更好的效果。

Jul, 2020

从单目 RGB 视频学习个性化、高质量的立体头像

本文提出了一种从野外拍摄的单目 RGB 视频学习高质量的隐式三维头像的方法，该方法通过参数化人脸模型驱动头像实现用户控制的面部表情和头部姿态，使用几何先验和 3DMM 的动态跟踪结合神经辐射场实现细粒度控制和光线真实感，并通过在 3DMM 几何上锚定的局部特征来预测，通过 3DMM 变形驱动，插值在 3D 空间中产生指定查询点的体积辐射。我们进一步展示了在 UV 空间使用卷积神经网络是关键的，可以整合空间上下文和产生代表性的局部特征。大量实验表明，与其他最先进的方法相比，我们能够重建高质量的头像，并具有更准确的表情依赖细节，更好地推广到训练之外的表情和数量上优秀的渲染效果。

Apr, 2023

MobileFace：高效 CNN 回归的 3D 人脸重建

本文提出了一种利用紧凑、快速的 CNN 模型在移动设备上实现实时重构的方法，通过使用传统的形态模型自动注释大量图像以供 CNN 训练，并优化 MobileNet CNNs 模型以改进速度、模型大小和保持最先进的重构精度。

Sep, 2018

具有网格锚定哈希表融合形状的高效三维隐式头像

提出了一种新颖的快速 3D 神经隐式头像模型，实现实时渲染并保持细粒度的可控性和高渲染质量。本方法引入局部哈希表混合形状，通过线性合并和卷积神经网络预测的权重，将其附加到底层面部参数模型的顶点上，从而实现表情相关的嵌入。通过轻量级多层感知机实现高效的密度和颜色预测，并通过分层最近邻搜索方法加速。大量实验证明，本方法在实时运行的同时实现了与最新技术相比可比的渲染质量，并对具有挑战性的表情获得了不错的结果。

Apr, 2024