- 情感对话:赋能连贯表情、凝视和姿态生成的交流面孔
通过自我监督学习,我们提出了一个两阶段的音频驱动对话人物生成框架,利用 3D 面部特征点作为中间变量,以实现表情、注视和头部姿势的合作对齐,并映射到预训练模型中以生成高质量人脸图像。
- 听、解缠与控制:可控语音驱动的说话人头像生成
提出了一种名为 SPEAK 的一次性 Talking Head Generation 框架,通过情感和姿势控制实现与一般 Talking Face Generation 的区别。该方法采用 Inter-Reconstructed Featu - CVPR增强式说话人脸视频生成与评估的音频视觉语音表示专家
使用 AV-HuBERT 进行口型同步损失的计算,并引入三种新的口型同步评估指标,以提供全面的口型同步性能评估。实验结果和详细的消融研究表明了我们方法的有效性和提出的评估指标的实用性。
- 具有教师 - 学生框架的超级实用对话生成系统
SuperFace 是一种师生框架,通过简单而有效的教师模型生成高质量的结果,并通过高度减少计算负载的身份特定的学生模型实现了质量与效率的平衡,为语音与视频驱动的面部生成技术提供了全面的解决方案,同时具备局部面部属性编辑的能力。
- AVI-Talking:学习音频 - 视觉指令用于表情丰富的 3D 说话脸生成
利用大型语言模型指导实现具有表情细节合成能力的说话人脸生成系统,通过先理解语音信息并生成指令,再执行这些指令生成具有表情运动的生动说话人脸,实验证明该方法有效且具有一致的情感状态。
- FT2TF: 面向人的陈述文本至说话人脸生成
提出了 FT2TF - 第一人称陈述文本到说话人脸生成的新的一阶段端到端流水线,通过改变相应的输入文本实现对面部表情的准确操作,证明在多维度评估指标上优于现有相关方法并达到最先进水平。
- CP-EB: 可控姿势和眨眼的对话人脸生成嵌入
该研究提出了一种名为 'CP-EB' 的交谈面部生成方法,该方法以音频信号作为输入、以人物图像作为参考,通过控制一个短视频剪辑和适当的嵌入式眨眼操作,合成出一个由头部姿势控制的逼真人物对话视频。实验结果表明,该方法可以产生出具有同步嘴唇动作 - HyperLips: 使用高分辨率解码器进行超精细控制的说话脸生成
通过使用 HyperLips,结合超网络和高分辨率解码器,本论文提出了一种解决高保真度脸部视频渲染及确保嘴唇同步的挑战的话语生成框架。
- HDTR-Net: 用于任意讲话人脸生成的实时高清修复牙齿网络
提出了一个名为 HDTR-Net 的通用高清修复网络,用于任意对话生成方法,可以在保持同步和时序一致性的同时,以极快的速度增强牙齿区域。实验证明,该方法适用于任意对话生成方法,同时能够实时生成高清对话视频,比基于超分辨率的当前先进脸部修复方 - ICCV通过零样本表情风格转移使您的语音化形象生动活泼
本文提出了一种无监督的变分风格转换模型 (VAST),以唤醒中性逼真头像的表情。该模型包括三个关键组成部分:从给定的视频提示中提取面部风格表示的风格编码器;用于模拟准确的与语音相关的动作的混合面部表情解码器;用于增强风格空间的变分风格增强器 - 探索嘴唇运动中的音系上下文以生成真实的口型动画
本文提出了一种基于音位上下文识别的口型同步框架(CALS),该框架通过引入对音位上下文的建模来生成空间时间上对齐的、相对稳定的对话人物口型。实验表明,CALS 大幅提高了视觉质量、口型同步质量和真实感,最终的口技可读性测试预测准确性达到了 - CPNet: 基于 CLIP 的注意力浓缩器和概率图引导的高保真说话脸生成技术
本文提出了一个基于 CLIP 的关注力和概率图引导网络 (CPNet),用于推断高保真的人脸合成视频。通过 fine-grained 特征整合和概率分布的一致性,该方法克服了局部细节模糊和降级保真度问题,取得了比现有技术更好的成果。
- CVPR由唇语专家引导的交谈面部生成
本文提出了一种利用口语专家、对不正确的生成结果进行惩罚和全局时间和视觉同步编码的对比学习和变压器方法来提高口语智能理解度的方法,并使用两种不同的口语专家评估生成视频的智能理解度。我们的方法在读取可理解度、嘴唇运动同步等方面优于当前的一些最先 - 文本或语音驱动的统一人脸标记生成器
提出一种统一的面部标记生成器(Unified facial landmark generator),利用端到端的文本到语音不仅用于合成语音,还用于提取一系列与文本和语音共同的潜在表示,将其馈送至标记解码器以生成面部标记,并演示这个系统在语音 - ICLRGeneFace:通用高保真音频驱动的 3D 人脸合成
研究提出了一种新的通用高保真 NeRF-based 说话人脸生成方法 GeneFace,并且在大规模口型阅读语料库的基础上,学习了一个变分运动生成器,并引入了一个域自适应后置网络来校准结果,实现了通用外域音频的自然结果创造。
- AAAISyncTalkFace:通过音 - 唇记忆实现精准嘴唇同步的说话人脸生成
该论文提出了一个名为 Audio-Lip Memory 的技术,使用存储在音频特征中的唇部运动信息来帮助生成与音频最匹配的嘴形,从而使得面部运动与音频之间出现了更加精细的时序一致性,实现了更高质量的谈话面部生成。
- StableFace: 分析和改进说话人脸生成的动作稳定性
本文通过对 3D 面部表示的优化和提出基于高斯自适应平滑模块和音频融合变换器生成器的解决方案,实现了稳定的人脸视频生成,并提出了一种目标度量标准 Motion Stability Index 进行运动抖动的定量测量。经过广泛的实验验证和比较 - EAMM: 基于音频的情感感知运动模型实现一次性情感对话人脸
本文提出 Emotion-Aware Motion Model (EAMM),结合音频与表情视频生成单次具有真实感情模式的表情化人脸。使用无需监督的零级和一级关键点运动生成姿态,再将情感相关的面部动态表示为线性可加位移,并实现了令人满意的结 - CVPR多语言 TTS 的说话人脸生成
本论文提出一种多语言对话生成系统,结合了人脸生成和文本到语音系统,可以仅通过文本输入生成多种语言的自然语音、同步口型,无论输入文本的语言如何,均可维持语音人的声音特征。同时,我们添加了翻译 API,展示神经配音技术的应用。
- 基于注意力机制的唇部音频视觉合成技术用于生成野外交谈人脸
本文提出了一种 AttnWav2Lip 模型,该模型将空间注意和通道注意模块纳入到口型同步策略中,并着重于唇部区域重构,从而实现了更精准的口型同步,通过在多个基准唇同步数据集上的实验,表明该模型展现了超越基线的良好表现。