Jul, 2020

从视频中生成视觉对齐的音频

TL;DR本文提出了一个名为 REGNET 的框架,利用外观和运动特征从视频帧中提取物体发出的声音,结合创新的音频转发正则化器进行更强的声音预测监督,在训练过程中使用了可控制影响因素的正则化器,并通过 Amazon Mechanical Turk 进行了大量评估,成功实现了音频和视频的时序和内容对齐。