Apr, 2024

使用序列到序列建模从静默视频合成音频

TL;DR使用序列到序列模型和 3D 向量量化可变自编码器来从视频生成音频,以改进与音频视觉媒体的交互,包括 CCTV 镜头分析、历史视频恢复和视频生成模型。