MMAug, 2022
具备音视频先验的极限规模讲话脸部视频升频
Extreme-scale Talking-Face Video Upsampling with Audio-Visual Priors
Sindhu B Hegde, Rudrabha Mukhopadhyay, Vinay P Namboodiri, C. V. Jawahar
TL;DR本文探讨了如何从一个 $8 imes8$ 像素的视频序列中获得丰富的信息,通过音频和图像的先验知识以及提出的音视频上采样网络,我们成功实现了 $32 imes$ 的视频放大,进一步在说话人视频压缩领域实现了 $3.5 imes$ 的比特率改进。