BriefGPT.xyz
大模型
Ask
alpha
关键词
reference frames
搜索结果 - 1
基于 Transformer 的音视觉上下文利用的遮蔽唇同步预测
本文提出了一种基于 Audio-Visual Context-Aware Transformer (AV-CAT) 框架的口型同步技术,可同时利用音频和视频信息,通过设计卷积 - Transformer 混合骨干网络和基于注意力机制的融合策
→
PDF
2 years ago
Prev
Next