Dec, 2022
基于 Transformer 的音视觉上下文利用的遮蔽唇同步预测
Masked Lip-Sync Prediction by Audio-Visual Contextual Exploitation in Transformers
Yasheng Sun, Hang Zhou, Kaisiyuan Wang, Qianyi Wu, Zhibin Hong...
TL;DR本文提出了一种基于 Audio-Visual Context-Aware Transformer (AV-CAT) 框架的口型同步技术,可同时利用音频和视频信息,通过设计卷积 - Transformer 混合骨干网络和基于注意力机制的融合策略,对图像进行口型蒙版、填充和修改,从而在保证图像真实性的前提下,生成高质量的口型同步结果。