具备音视频先验的极限规模讲话脸部视频升频

MMAug, 2022

具备音视频先验的极限规模讲话脸部视频升频

Extreme-scale Talking-Face Video Upsampling with Audio-Visual Priors

Sindhu B Hegde, Rudrabha Mukhopadhyay, Vinay P Namboodiri, C. V. Jawahar

TL;DR本文探讨了如何从一个 $8 imes8$ 像素的视频序列中获得丰富的信息，通过音频和图像的先验知识以及提出的音视频上采样网络，我们成功实现了 $32 imes$ 的视频放大，进一步在说话人视频压缩领域实现了 $3.5 imes$ 的比特率改进。

Abstract

In this paper, we explore an interesting question of what can be obtained from an $8\times8$ pixel video sequence. Surprisingly, it turns out to be quite a lot. We show that when we process this $8\times8$ video with the right set of audio and image priors, we can obtain a full-length, $256\times256$ video. We achieve this $32\times$ scaling of an extremely

video upsampling audio-visual facial details high-resolution talking-face video compression

发现论文，激发创造

学会识别面部超分辨率

本文提出了一种新颖的方法，利用音频和低分辨率图像进行极端人脸超分辨率，通过建立人脸的潜在表征并使用深度学习进行融合，以提高高分辨率图像重建过程的正确性，同时可以提取面部属性。

Sep, 2019

层叠超分辨率和身份先验的人脸变形重建

本文提出了一种基于卷积神经网络和脸部识别模型的（深度）脸部成像模型，通过使用级联超分辨率网络并将人脸识别模型作为学习过程中的先验来实现从低分辨率输入到高分辨率输出的脸部图像重建，实验结果表明该方法优于现有方法。

May, 2018

自适应超分辨率用于一次性说话头生成

提出了一种自适应的高质量说话头视频生成方法，通过降采样源图像并利用编码解码模块自适应重构高频细节，以提高合成视频的清晰度。

Mar, 2024

众人皆醉我独醒：让我依你所愿地说话

该研究提出了一种基于音频输入的编辑目标肖像画面的方法，通过将目标视频帧分解为表情、几何和姿势三个正交参数空间，再利用循环神经网络将源音频转化为表情参数，并在保留原始视频背景的同时合成一个逼真的人物主体，最后利用动态编程构建一个有序连贯且令人信服的逼真视频。

Jan, 2020

你说了什么？

本文提出了一种生成说话脸部视频的方法，该方法使用了联合嵌入的编码器解码器 CNN 模型对目标音频和人脸进行建模来生成视频，并且还展示了使用不同人的语音重新配音的结果。

May, 2017

基于关键点和外观先验的身份保持说话人脸生成

提出了一种两阶段方法以生成更逼真、口型同步和较好地保留身份信息的谈话面部视频。第一阶段利用基于 Transformer 的关键点生成器从音频中提取嘴唇和下颌关键点，并根据说话人的脸部轮廓调整生成的关键点。在第二阶段中，视频渲染模型将关键点转换为面部图像，并利用静态参考图像中的先前外观信息生成更逼真的视觉内容。

May, 2023

RealTalk：基于 3D 面部先验引导的身份对齐网络的实时和逼真的音频驱动人脸生成

该论文提出了一个新颖的通用音频驱动框架 RealTalk，包括音频到表情转换和表情到人脸渲染两个组成部分，通过跨模态注意力对丰富的面部先验信息进行对齐，以实现高精确度的唇语同步和实时生成高质量的面部图像。该方法在公共数据集上进行的实验结果表明，它在唇语同步和生成质量方面具有明显的优势，并且具有高效且需要较少计算资源的特点，非常适合实际应用。

Jun, 2024

分层交叉模态对话脸动态像素损失生成

提出了级联 GAN 方法来生成对话式人脸视频，该方法在不同的人脸形状、视角、面部特征和嘈杂声音条件下具有鲁棒性，通过将音频转换为高级结构，即面部标志点，然后在标志点的条件下生成视频帧，避免了不相关的音频视觉信号之间的假冒关联，利用动态可调整像素级损失和注意机制来解决像素抖动问题，并提出了一种新的基于回归的鉴别器结构来生成更清晰、更同步的面部动作图像，实验结果表明，我们的方法比现有方法在定量和定性比较中取得了显著更好的效果。

May, 2019

基于学习的个性化头部姿势音频驱动的说话人脸视频生成

本文提出了一种基于深度神经网络的方法，通过输入音频信号和短视频，生成个性化头部姿态、表情和口型同步，并使用记忆增强的生成对抗网络模块来优化合成效果的自然对话人脸视频。实验表明，该方法可以在较少帧数的情况下生成高质量、自然的对话人脸视频。

Feb, 2020

深度音视频语音增强对话

本文提出了一种深度视听语音增强网络方法，借助于对应视频中的嘴唇信息，能够在多人同时说话的情境下，从语音信号中分离出个人的发言，该方法适用于训练时未涉及到的说话者，并在不受限制的环境下，展现了出色的定量和定性效果。

Apr, 2018