SingingHead: 用于歌唱头部动画的大规模 4D 数据集

Dec, 2023

SingingHead: 用于歌唱头部动画的大规模 4D 数据集

SingingHead: A Large-scale 4D Dataset for Singing Head Animation

Sijing Wu, Yunhao Li, Weitian Zhang, Jun Jia, Yucheng Zhu...

TL;DR我们收集了一个高质量的大规模歌唱头部数据集，SingingHead，它包括来自 76 个个体和 8 种音乐类型的超过 27 小时的同步歌唱视频、3D 面部动作、歌唱音频和背景音乐。结合 SingingHead 数据集，我们提出了一个统一的歌唱面部动画框架 UniSinger，实现了通过歌唱音频驱动的 3D 歌唱头部动画和 2D 歌唱肖像视频合成。与 SOTA 的 3D 面部动画和 2D 肖像动画方法进行了广泛比较实验，证明了歌唱头部动画任务中歌唱特定数据集的必要性以及我们统一面部动画框架的良好性能。

Abstract

Singing, as a common facial movement second only to talking, can be regarded as a universal language across ethnicities and cultures, plays an important role in emotional communication, art, and entertainment. However, it is often overlooked in the field of audio-driven facial animation

singing head dataset audio-driven facial animation synchronized singing video 3d and 2d facial animation unisinger

发现论文，激发创造

MultiTalk: 多语种视频数据集增强跨语言的三维说话头生成

通过多语种 2D 视频数据集，引入多语种增强模型，利用语言特定的样式嵌入，提高了 3D 说话人模型的多语种性能，并提出了度量多语种环境下的唇同步准确性指标。

Jun, 2024

3D 说话风格的捕捉、学习和综合

我们介绍了一个独特的 4D 人脸数据集，使用它训练的神经网络 VOCA 可以根据语音信号实现逼真的人脸动画，可被用于游戏视频、虚拟现实头像等多种领域。

May, 2019

为面部注入生命：利用自然头部姿势和详细形状进行由语音驱动的 3D 面部动画

VividTalker 是一个新框架，旨在辅助具有灵活头部姿势和自然面部细节的以语音驱动的 3D 面部动画，通过将面部动画显式地分解为头部姿势和口腔运动，并将其单独编码为离散潜在空间，然后利用基于窗口的 Transformer 架构通过自回归过程生成这些特征。在与语音内容一致的情况下，使用新的 3D 数据集构建了具有详细形状的面部细节合成并学习。广泛的定量和定性实验证明，VividTalker 胜过了现有最先进的方法，实现了生动逼真的以语音驱动的 3D 面部动画。

Oct, 2023

EmoVOCA: 语音驱动的情感三维交谈头像

提出了一种创新的数据驱动技术，通过将一组无表情的 3D 说话头与一组 3D 表情序列相结合，创建了一个合成数据集 EmoVOCA，再使用该数据集设计和训练了一个情感 3D 说话头生成器，通过接受 3D 面部、音频文件、情感标签和强度值作为输入，并学习将音频同步的唇部动作与面部的表情特征相结合，实验结果证明了该方法在合成逼真动画方面的优势。

Mar, 2024

AnimeCeleb：用于头部再现的大规模动画名人数据集

我们提出了一种新的 Animation CelebHeads（AnimeCeleb）数据集，利用 3D 动画模型作为可控图像采样器，为头部动画重现提供了大量的头部图像和对应的详细姿势注释，借助半自动流水线构建注释系统，通过 AnimeCeleb 进行训练，我们的跨域头部重新表演模型在推断过程中可以轻松地将用户的动作转移到任意的动画头部，证明 AnimeCeleb 对于训练动画头部重现模型的实用性以及我们的跨域头部重新表演模型相比现有最先进的方法的优越性。

Nov, 2021

基於實境影像的音頻驅動 3D 臉部動畫

本文提出了一种基于 2D 口型视频和 3D 面部重构方法训练的 3D 面部动画模型，该模型具有良好的泛化能力和包括口型同步在内的高保真度，能够捕捉不同个体的讲话风格并输出个性化的 3D 说话头像，经实验证明其优越性。

Jun, 2023

DeepSinger：基于网络挖掘数据的歌声合成

本文介绍了 DeepSinger，这是一个从音乐网站中抓取数据训练的多语言、多歌手的歌唱声音合成系统，其特点包括自动化的对齐模型、基于 Transformer 的合成模型以及多语言、多歌手的支持

Jul, 2020

SingFake: 唱歌声深度伪造检测

提出了歌声深度伪造检测任务，创建了第一个真实数据集 SingFake，包含 40 位歌手 5 种语言的 28.93 小时真实歌曲和 29.40 小时深度伪造歌曲片段，评估了四个最先进的口语对抗系统，发现在 SingFake 上训练相对于在口语测试数据上训练有显著改进，但也提出了未知歌手、通信编解码器、语言和音乐背景等挑战。

Sep, 2023

VividTalk：基于 3D 混合先验模型的单次音频驱动说话头生成

提出了一个名为 VividTalk 的两阶段通用框架，用于生成具有高视觉质量的语音驱动的说话人视频，并在唇语同步、丰富的面部表情、高视觉质量等方面超越了以往的最先进作品。

Dec, 2023

Learn2Talk: 3D 口型学习 2D 口型

提出了一种名为 Learn2Talk 的学习框架，该框架可以通过利用 2D 说话面领域的两个专业点来构建更好的 3D 说话面网络，主要关注嘴唇同步、语音感知、音频 - 3D 动作回归网络等方面的研究。

Apr, 2024