May, 2024

MAGIC: 地图指导的少样本音频 - 视觉声学建模

TL;DR通过构造与声音相关的视觉语义特征图和地图,我们提出了一个以地图为导向的框架,通过少量的观测数据准确地建模环境声学。我们通过扩散特征和预测观测语义地图生成场景语义地图,然后通过基于 Transformer 的编码器 - 解码器与回声编码交互,预测任意发言者 - 听众查询对的房间冲激响应。大量在 Matterport3D 和 Replica 数据集上进行的实验验证了我们框架的有效性。