MMAug, 2022

具备音视频先验的极限规模讲话脸部视频升频

TL;DR本文探讨了如何从一个 $8 imes8$ 像素的视频序列中获得丰富的信息,通过音频和图像的先验知识以及提出的音视频上采样网络,我们成功实现了 $32 imes$ 的视频放大,进一步在说话人视频压缩领域实现了 $3.5 imes$ 的比特率改进。