VectorTalker: 带有渐进式矢量化的 SVG 语音生成
本文提出了一种从单个面部图像与仅含音频的输入生成富有表现力的谈话头像的方法,并能以单一的统一框架中合成艺术绘画、素描、2D 卡通角色、日本漫画和风格化漫画等图像,并通过定量和定性方法的评估以及用户研究,证明其比现有技术的生成头像的质量显着更高。
Apr, 2020
提出了一个名为 VividTalk 的两阶段通用框架,用于生成具有高视觉质量的语音驱动的说话人视频,并在唇语同步、丰富的面部表情、高视觉质量等方面超越了以往的最先进作品。
Dec, 2023
本文介绍了一种由音频信号驱动的、生成具有个性化的逼真说话动画的活体系统,包括从音频信号中提取深度音频特征,分析面部动态和姿态,并在最终的阶段生成逼真的面部细节。
Sep, 2021
本文提出了一种新模型,通过利用自监督学习技术和三维人脸模型中的标志点来对运动进行建模,并引入了新的运动感知多尺度特征对齐模块来进行视频合成,从而实现了对头部姿态和表情的自由控制,并且得到了最优质的合成音频视频输出。
Apr, 2023
本文提出了一种基于深度神经网络的方法,通过输入音频信号和短视频,生成个性化头部姿态、表情和口型同步,并使用记忆增强的生成对抗网络模块来优化合成效果的自然对话人脸视频。实验表明,该方法可以在较少帧数的情况下生成高质量、自然的对话人脸视频。
Feb, 2020
本文提出一种基于音频驱动的头像动画方法,该方法同时解决了面部动画和头部运动的问题,并且采用了神经网络来预测和生成头部和面部的动画以及背景的动作。通过关键点密集的运动场表示,本方法产生的头像动画具有很好的空间和时间连续性,并且性能优于现有技术。
Jul, 2021
VividTalker 是一个新框架,旨在辅助具有灵活头部姿势和自然面部细节的以语音驱动的 3D 面部动画,通过将面部动画显式地分解为头部姿势和口腔运动,并将其单独编码为离散潜在空间,然后利用基于窗口的 Transformer 架构通过自回归过程生成这些特征。在与语音内容一致的情况下,使用新的 3D 数据集构建了具有详细形状的面部细节合成并学习。广泛的定量和定性实验证明,VividTalker 胜过了现有最先进的方法,实现了生动逼真的以语音驱动的 3D 面部动画。
Oct, 2023
本研究提出了一种基于文本的交谈头视频生成框架,能够按照上下文情感及语音节奏和停顿,合成高保真度的面部表情和头部动作。我们的算法通过两个阶段:一个是针对多个人种实现的通用阶段,一个是基于每一个人的具体情况实现的个性阶段。通过广泛的实验验证,我们的这一算法能够生成高质量、逼真的交谈头视频,且在多项指标上均超过目前领先的技术水平。
Apr, 2021
ScanTalk 是一个新的框架,利用 DiffusionNet 架构来解决面部固定拓扑结构的限制,实现任意拓扑结构的 3D 面部动画。通过与现有技术的全面比较,验证了该方法生成与现有技术可媲美的逼真说话头部的有效性。
Mar, 2024
这篇论文系统地研究了最新的深度学习和计算机视觉技术在逼真说话头部生成方面的方法,将它们分为图像驱动、音频驱动、视频驱动和其他(包括神经辐射场(NeRF)和基于 3D 的方法)四种主要方法,并深入分析每种方法的独特贡献、优势和局限性。此外,还对公开可用的模型进行了全面比较,在推理时间和生成输出的质量等关键方面进行了评估。本文的目标是提供一个清晰而简明的关于当前说话头部生成领域的概述,阐明不同方法之间的关系,并确定未来研究的有希望的方向。这个综述将为对这个快速发展领域感兴趣的研究人员和从业者提供有价值的参考。
Aug, 2023