文本到视频：适用于零样本身份不可知的说话头像生成的两阶段框架

Aug, 2023

文本到视频：适用于零样本身份不可知的说话头像生成的两阶段框架

Text-to-Video: a Two-stage Framework for Zero-shot Identity-agnostic Talking-head Generation

Zhichao Wang, Mengyu Dai, Keld Lundgaard

TL;DR本文提出了一种新颖的两阶段框架，用于人物无关视频克隆，特别关注文本转视频生成。在第一阶段，我们利用预训练的零样本模型实现文本转语音转换。第二阶段采用音频驱动的说话人生成方法，根据第一阶段生成的音频产生引人注目的视频。该论文对不同的文本转语音和音频驱动的说话人生成方法进行了比较分析，确定了最有前景的研究和开发方法。

Abstract

The advent of chatgpt has introduced innovative methods for information gathering and analysis. However, the information provided by chatgpt is limited to text, and the visualization of this information remains c

chatgpt text-to-video person-agnostic video cloning text-to-speech conversion audio-driven talking head generation

发现论文，激发创造

视频同步的文本到语音生成

近期，研究人员在文本转语音生成方面的关注度不断增加，本研究提出了一个名为 T2AV-Bench 的创新基准和一个简单而有效的视频对齐文本到音频生成模型 T2AV，通过整合视觉对齐的文本嵌入到生成模型中，通过时间多头注意力转换器从视频数据中提取和理解时间细微差异，并通过 Audio-Visual ControlNet 将时态视觉表示与文本嵌入精确地融合，进一步增强集成性，以确保视觉对齐和时间一致性。经过对 AudioCaps 和 T2AV-Bench 的广泛评估，T2AV 在视觉对齐和时间一致性上设立了新的标准。

Mar, 2024

Ada-TTA：自适应高质量文本到语音头像合成

本文提出 Adaptive Text-to-Talking Avatar（Ada-TTA），该方法在语音识别的背景下，设计了通用的零样本多扬声器 TTS 模型，并采用神经渲染技术来实现逼真的音频驱动的说话面部视频生成，实现了身份保护言语和逼真的说话人视频。

Jun, 2023

鲁棒单张音频到视频生成

本研究提出了一种名为 OneShotA2V 的新方法，该方法利用具有表现性面部组件的运动的课程学习，仅使用一个听觉信号和一个未见过的个人图像，生成任意长度的交谈人视频，实验评估表明该方法在多个量化指标上表现优越。

Dec, 2020

文本无关视频生成的扩展方法

通过使用无文本视频进行训练，研究表明，扩大训练集规模并重新引入部分文本标签，可以使基于扩散的文本到视频生成的性能得到提升和改进。

Dec, 2023

VividTalk：基于 3D 混合先验模型的单次音频驱动说话头生成

提出了一个名为 VividTalk 的两阶段通用框架，用于生成具有高视觉质量的语音驱动的说话人视频，并在唇语同步、丰富的面部表情、高视觉质量等方面超越了以往的最先进作品。

Dec, 2023

FT2TF: 面向人的陈述文本至说话人脸生成

提出了 FT2TF - 第一人称陈述文本到说话人脸生成的新的一阶段端到端流水线，通过改变相应的输入文本实现对面部表情的准确操作，证明在多维度评估指标上优于现有相关方法并达到最先进水平。

Dec, 2023

神经文本转口头表达：深度文本到视听说话合成实现听觉与逼真图像

在这篇论文中，我们提出了第一个使用 Transformer 且不遵循级联方法的文本驱动音频视觉语音合成器 NEUTART，它使用联合音频视觉特征空间、语音信息的 3D 面部重建以及通过视觉监督的嘴唇阅读损失，该模型能够生成人类般发音和音视频同步的逼真说话人脸视频，实验证明其在客观指标和人类评估方面达到了最先进的生成质量。

Dec, 2023

如何才能生成良好的面部表情视频？：调查和基准评估

本文提出了一个用于评估生成 “说话人头像” 视频的基准，并提出了一些新的或最合适的度量标准来考虑视频保持身份一致性、嘴唇同步性，高视频质量和自然运动，以分析多种先进技术的优缺点并提出未来工作的有希望的方向。

May, 2020

基于文本的情感和节奏对话头生成

本研究提出了一种基于文本的交谈头视频生成框架，能够按照上下文情感及语音节奏和停顿，合成高保真度的面部表情和头部动作。我们的算法通过两个阶段：一个是针对多个人种实现的通用阶段，一个是基于每一个人的具体情况实现的个性阶段。通过广泛的实验验证，我们的这一算法能够生成高质量、逼真的交谈头视频，且在多项指标上均超过目前领先的技术水平。

Apr, 2021

Make-A-Video: 无需文本与视频数据的文本到视频生成

该研究提出一种名为 Make-A-Video 的方法，利用文本 - 图像生成的进展，从而实现文本 - 视频的生成，通过对时空模块的研究，提高了空间和时间的分辨率和文本的保真度并取得了最新的成果。

Sep, 2022