Jun, 2023

音频视觉预测编码引导的声源分离

TL;DR本论文提出了一种参数高效且有效的音频 - 视觉预测编码方法,该方法使用 ResNet-based 视频分析网络和声音分离网络提取音频特征,融合多模态信息并在同一体系结构中预测声音分离掩码来交替地最小化特征之间的预测误差,同时还开发了有效的自监督学习策略。