Pre-Avatar：使用漫谈头像的自动演示生成框架

Oct, 2022

Pre-Avatar：使用漫谈头像的自动演示生成框架

Pre-Avatar: An Automatic Presentation Generation Framework Leveraging Talking Avatar

Aolan Sun, Xulong Zhang, Tiandong Ling, Jianzong Wang, Ning Cheng...

TL;DR本文提出了一种名为 Pre-Avatar 的系统，通过一张正面照片和 3 分钟的语音记录，生成一个具有说话者形象的演示视频，核心技术包括用户体验界面 (UEI)、说话人形象生成、少样本文本到语音 (TTS) 等几个子模块。用户只需要用不同的注释替换幻灯片，即可生成新视频，这将降低沟通材料的制作和复制成本。

Abstract

Since the beginning of the COVID-19 pandemic, remote conferencing and school-teaching have become important tools. The previous applications aim to save the commuting cost with real-time interactions. However, our application is going to lower the production and reproduction costs when preparing the →

pre-avatar presentation video talking face text-to-speech communication materials

发现论文，激发创造

Ada-TTA：自适应高质量文本到语音头像合成

本文提出 Adaptive Text-to-Talking Avatar（Ada-TTA），该方法在语音识别的背景下，设计了通用的零样本多扬声器 TTS 模型，并采用神经渲染技术来实现逼真的音频驱动的说话面部视频生成，实现了身份保护言语和逼真的说话人视频。

Jun, 2023

GAIA：零射击对话头像生成

GAIA 为无需 domain-specific 启发式方法的生成式虚拟形象的合成提供了一个通用解决方案，通过将每帧图像分解为运动和外观表示，并在语音和参考人像图像的条件下生成运动序列，实现了更自然、多样化、口型同步和视觉质量更高的结果，同时具备可扩展性和其他应用潜力。

Nov, 2023

MakeItTalk: 面向发言人的说话人头动画

本文提出了一种从单个面部图像与仅含音频的输入生成富有表现力的谈话头像的方法，并能以单一的统一框架中合成艺术绘画、素描、2D 卡通角色、日本漫画和风格化漫画等图像，并通过定量和定性方法的评估以及用户研究，证明其比现有技术的生成头像的质量显着更高。

Apr, 2020

具有教师 - 学生框架的超级实用对话生成系统

SuperFace 是一种师生框架，通过简单而有效的教师模型生成高质量的结果，并通过高度减少计算负载的身份特定的学生模型实现了质量与效率的平衡，为语音与视频驱动的面部生成技术提供了全面的解决方案，同时具备局部面部属性编辑的能力。

Mar, 2024

合法使用合成说话头像视频的头像指纹识别

该研究提出了利用每个人独特的面部运动签名学习嵌入的想法来解决合成视频向肖像进行滥用的问题，同时贡献了一个大规模的数据集来解决这个新的 avatar fingerprinting 任务。

May, 2023

实时逼真的说话人头部动画

本文介绍了一种由音频信号驱动的、生成具有个性化的逼真说话动画的活体系统，包括从音频信号中提取深度音频特征，分析面部动态和姿态，并在最终的阶段生成逼真的面部细节。

Sep, 2021

文本到视频：适用于零样本身份不可知的说话头像生成的两阶段框架

本文提出了一种新颖的两阶段框架，用于人物无关视频克隆，特别关注文本转视频生成。在第一阶段，我们利用预训练的零样本模型实现文本转语音转换。第二阶段采用音频驱动的说话人生成方法，根据第一阶段生成的音频产生引人注目的视频。该论文对不同的文本转语音和音频驱动的说话人生成方法进行了比较分析，确定了最有前景的研究和开发方法。

Aug, 2023

AVI-Talking：学习音频 - 视觉指令用于表情丰富的 3D 说话脸生成

利用大型语言模型指导实现具有表情细节合成能力的说话人脸生成系统，通过先理解语音信息并生成指令，再执行这些指令生成具有表情运动的生动说话人脸，实验证明该方法有效且具有一致的情感状态。

Feb, 2024

基于关键点和外观先验的身份保持说话人脸生成

提出了一种两阶段方法以生成更逼真、口型同步和较好地保留身份信息的谈话面部视频。第一阶段利用基于 Transformer 的关键点生成器从音频中提取嘴唇和下颌关键点，并根据说话人的脸部轮廓调整生成的关键点。在第二阶段中，视频渲染模型将关键点转换为面部图像，并利用静态参考图像中的先前外观信息生成更逼真的视觉内容。

May, 2023

上下文感知的说话人脸视频生成

通过使用面部特征作为控制信号，我们提供了一个两阶段和跨模态可控的视频生成流程，以自然地生成与驱动音频和对话环境空间上连贯的视频内容。实验结果表明，该方法在音视频同步、视频保真度和帧一致性方面优于其他基准方法。

Feb, 2024