NIPSSep, 2018

360° 视频自监督空间音频生成

TL;DR通过使用端到端可训练的神经网络,我们的方法根据音频和 360 度视频帧的多模态分析,将由 360 度视频相机记录的单声道音频转换为空间音频,并从中分离和定位单独的声源于观看球上,因此通过我们的方法,仅使用 360 度视频和单声道音轨就可以推断声源的空间位置。