GSTalker: 实时基于声音驱动的可变形高斯平铺生成对话脸部

Apr, 2024

GSTalker: 实时基于声音驱动的可变形高斯平铺生成对话脸部

GSTalker: Real-time Audio-Driven Talking Face Generation via Deformable Gaussian Splatting

Bo Chen, Shoukang Hu, Qi Chen, Chenpeng Du, Ran Yi...

TL;DR通过 Gaussian Splatting 进行 3D 音频驱动的说话人脸生成模型的快速训练和实时渲染，可在短时间内生成高保真度和音频同步的结果。

Abstract

We present gstalker, a 3d audio-driven talking face generation model with gaussian splatting for both fast training (40 minutes) and

gstalker 3d audio-driven talking face generation gaussian splatting real-time rendering audio-lips synchronized

发现论文，激发创造

高保真实时语音合成与音频驱动下的 3D 高斯状喷溅

提出了 GaussianTalker，这是一个实时生成可调控姿势的会话头部的新框架，它利用 3D 高斯喷射（3DGS）的快速渲染能力，同时解决了直接控制 3DGS 与语音音频的挑战。

Apr, 2024

高斯说话人：通过三维高斯喷洒合成特定说话人的形象

使用 3D 高斯散点图作为基础，GaussianTalker 是一种基于音频驱动的说话人头部合成方法，具有准确的唇部同步和优秀的视觉质量，超过现有最先进的方法，并具有实时渲染性能。

Apr, 2024

TalkingGaussian: 通过高斯点插值实现结构持续的三维说话头合成

本研究提出了一种基于变形的辐射场框架 TalkingGaussian，用于高保真度语音同步头像合成，并通过将模型分为两个分支来解决面部和口内区域的运动不一致问题，从而实现更准确的嘴部运动和结构的重建。

Apr, 2024

GMTalker：基于高斯混合模型的情感对话视频肖像

用高保真度和可控情感的语音同步视频肖像合成，包括真实的表情、逼真的头部姿态和眨眼，是近年来一个重要且具有挑战性的任务。本文提出了 GMTalker, 一种基于高斯混合模型的情感性语音肖像生成框架，通过构建连续和多模态的潜变量空间实现更灵活的情感操作，结合流动场的动作生成器和个性化情感引导头部生成器，能够合成高保真度和忠实的情感视频肖像。定量和定性实验证明，我们的方法在图像质量、逼真度、情感准确性和动作多样性等方面优于先前的方法。

Dec, 2023

HeadGaS: 三维高斯散点实时可动头部化身

提出了使用三维高斯斑点（3DGS）进行三维头部重建和动画的 HeadGaS 模型，其利用可学习的潜在特征扩展了 3DGS 的显式表示，并与参数化头部模型的低维参数线性融合，实现表情相关最终颜色和不透明度值。实验证明，HeadGaS 在实时推理帧率方面取得了最先进的结果，超过基线约 2dB，并将渲染速度加速至 10 倍以上。

Dec, 2023

GeneFace++: 实时稳定的通用音频驱动 3D 口型生成

GeneFace++ 是目前第一个实现了稳定和实时的通用音频 - 唇形同步对话人肖像生成，并通过采用辅助特征、引入时间损失、设计计算效率高的 NeRF 模型等方法处理了唇形同步、视频质量和系统效率等方面的挑战。

May, 2023

GSmoothFace: 通过细粒度的 3D 人脸引导实现广义流畅对话面部生成

提出了一种新颖的两阶段广义说话人脸生成模型 GSmoothFace，通过精细的 3D 面部模型引导，能够产生平滑的唇部动态并保留说话人的身份，实验证明了我们方法在真实性、唇部同步和视觉质量方面的优越性。

Dec, 2023

3DGS-Avatar：通过可变形的三维高斯点渲染实现动态化人物形象

使用 3D 高斯喷洒（3DGS），我们介绍了一种从单目视频中创建可以动画化的人体化身的方法。通过学习非刚性变形网络和引入不同性的正则化，我们的方法在训练和推理速度上比现有的技术分别快 400 倍和 250 倍，并实现了与最先进方法相媲美甚至更好的性能。

Dec, 2023

CSTalk: 协作监督的语音驱动 3D 情感面部动画生成

本研究提出了一种名为 CSTalk 的方法，通过建模面部运动不同区域之间的相关性并监督生成模型的训练，生成符合人脸运动模式的真实表情，解决了语音驱动的 3D 面部动画技术中面临的数据限制、唇部对齐以及面部表情自然度等挑战，实验结果表明我们的方法优于现有最先进的方法。

Apr, 2024

人体高斯扩散：可动化虚拟形象的实时渲染

该研究解决了从多视角视频中学习的逼真人体化身的实时渲染问题，通过提出了基于三维高斯散点的可动态化的人体模型，相较于现有方法，在 THuman4 数据集上呈现了 1.5dbB 更好的 PSNR，并能以 20fps 或更高的速度进行渲染。

Nov, 2023