Oct, 2023

三维重建房间的新颖视角声学合成

TL;DR探究结合盲音频录音和 3D 场景信息对新视角声学合成的益处。通过 2-4 个麦克风的音频录音和包含多个未知声源的场景的 3D 几何学和材料,估计场景中的任何声音。我们确定了新视角声学合成的主要挑战,即声源定位、分离和去混响。虽然简单地训练端到端网络不能产生高质量的结果,但我们证明了融入从 3D 重建房间导出的房间脉冲响应(RIRs)使得相同的网络能够统一解决这些任务。我们的方法优于针对各个任务设计的现有方法,证明其在利用 3D 视觉信息方面的有效性。在 Matterport3D-NVAS 数据集上的模拟研究中,我们的模型在源定位方面实现了接近完美的准确性,源分离和去混响方面的 PSNR 为 26.44 dB 和 SDR 为 14.23 dB,从而在新视角声学合成方面获得了 PSNR 为 25.55 dB 和 SDR 为 14.20 dB 的结果。项目网页提供了代码、预训练模型和视频结果。