Dec, 2022

基于 Transformer 的音视觉上下文利用的遮蔽唇同步预测

TL;DR本文提出了一种基于 Audio-Visual Context-Aware Transformer (AV-CAT) 框架的口型同步技术,可同时利用音频和视频信息,通过设计卷积 - Transformer 混合骨干网络和基于注意力机制的融合策略,对图像进行口型蒙版、填充和修改,从而在保证图像真实性的前提下,生成高质量的口型同步结果。