使用深度生成模型的低带宽视频聊天压缩

Dec, 2020

使用深度生成模型的低带宽视频聊天压缩

Low Bandwidth Video-Chat Compression using Deep Generative Models

Maxime Oquab, Pierre Stock, Oran Gafni, Daniel Haziza, Tao Xu...

TL;DR通过使用发送方提取的面部标志在接收方设备上真实重建面孔的方式，我们探讨和评估了几种深度对抗方法的优点和缺点，同时设计了一种基于 SiSiSiiarasdyet.Firdmeodmel 法的移动兼容架构，并借助 SPADE 块在重要区域（如眼睛和嘴唇）中优化结果。我们将网络压缩到约 3MB，使模型可在 iPhone 8（CPU）上实时运行。这种方法使视频通话速度低于几 kbits / 秒，比当前可用的替代方案低一个数量级。

Abstract

To unlock video chat for hundreds of millions of people hindered by poor connectivity or unaffordable data costs, we propose to authentically reconstruct faces on the receiver's device using facial landmarks extr

video chat facial landmarks deep adversarial approaches mobile-compatible architecture real-time

发现论文，激发创造

深度多模态软解码非常低比特率人脸视频

本文提出了一种基于深度学习的多模态神经网络来去除讲述者视频的压缩伪影，这种方法可以显著提高冗余压缩下的视频质量。

Aug, 2020

极度压缩的人脸视频的多模态深度修复

本文提出了一种多模式深度卷积神经网络方法，用于恢复被激进压缩的脸部视频，并明确了多种模式的先验知识对于减少压缩伪影的重要性，实验证明了该方法对于面部视频的卓越性能。

Jul, 2021

基于隐式辐射场的适用于高保真头像视频会议的分辨率无关的神经压缩

提出了一种基于神经辐射场的新型低带宽神经压缩方法，用于高保真人像视频会议，该方法利用隐式辐射场实现了高保真的表情特征重建，具有低带宽和高分辨率重建的特点。

Feb, 2024

高效语音驱动说话人脸生成的统一压缩框架

本文提出了一种轻量级语音驱动对话人脸生成模型，采用知识蒸馏方案进行训练，同时采用混合精度以获得更高的生成速度。

Apr, 2023

MobileFace：高效 CNN 回归的 3D 人脸重建

本文提出了一种利用紧凑、快速的 CNN 模型在移动设备上实现实时重构的方法，通过使用传统的形态模型自动注释大量图像以供 CNN 训练，并优化 MobileNet CNNs 模型以改进速度、模型大小和保持最先进的重构精度。

Sep, 2018

深度视频肖像

该研究提出了一种新方法，可以通过输入视频实现人像视频的逼真的重新动画制作，在此过程中将源演员的全面影响转移到目标演员的画像上。

May, 2018

基于 3D 时空轨迹的深度伪造视频压缩检测

该研究提出了一种基于 3D 时空轨迹的深度伪造视频检测方法，该方法通过利用鲁棒的 3D 模型构建时空运动特征，整合来自 2D 和 3D 帧的特征细节，以减轻大头部旋转角度或不足的光照对帧内的影响。此外，该方法将面部表情与头部运动分离，并设计了基于相空间运动轨迹的顺序分析方法，以探索深度伪造视频中真实面部和伪造面部之间的特征差异。通过对几个压缩深度伪造基准进行广泛实验证明了我们所提出的方法的性能。计算视频压缩前后面部标志的一致分布验证了精心设计的特征的鲁棒性。我们的方法取得了令人满意的结果，展示了其在实际应用中的潜力。

Apr, 2024

基于关键帧的 GAN 在视频会议中的感知质量提升

我们提出了一种基于 GAN 的方法，用于视频会议中的压缩失真减少，通过提取多尺度特征和结合面部标志的方式，恢复视频压缩后丢失的高频细节，实验证明该方法在高压缩速率下提高了视觉质量并生成了逼真的结果。

Nov, 2023

从视频中感知语音的视觉三维面部表情重建

本文介绍了一种基于视觉的、口型感知的三维口部表情重建方法，该方法不需要任何文本转录或对应音频，并使用 “lipread” 损失来指导拟合过程，以使三维重建的头部运动与原始视频片段的感知相似。此外，通过三个大规模数据集的详尽客观评估和两个基于网络的用户研究的主观评估，我们证明了该方法的有效性。

Jul, 2022

高保真自由可控的说话头部视频生成

本文提出了一种新模型，通过利用自监督学习技术和三维人脸模型中的标志点来对运动进行建模，并引入了新的运动感知多尺度特征对齐模块来进行视频合成，从而实现了对头部姿态和表情的自由控制，并且得到了最优质的合成音频视频输出。

Apr, 2023