Oct, 2022

可训练的选择器:稀疏时空音视频同步

TL;DR探讨基于多模态转换模型处理视频的音视频同步问题,提出使用视频流选择器将长时间的音视频流裁剪成小的序列并使用它们来预测两个流之间的时间偏移。通过构建数据集和解决压缩编解码器带来的问题,验证了该方法在稀疏和密集同步数据集上的优越性。