May, 2024
MAGIC: 地图指导的少样本音频 - 视觉声学建模
MAGIC: Map-Guided Few-Shot Audio-Visual Acoustics Modeling
Diwei Huang, Kunyang Lin, Peihao Chen, Qing Du, Mingkui Tan
TL;DR通过构造与声音相关的视觉语义特征图和地图,我们提出了一个以地图为导向的框架,通过少量的观测数据准确地建模环境声学。我们通过扩散特征和预测观测语义地图生成场景语义地图,然后通过基于 Transformer 的编码器 - 解码器与回声编码交互,预测任意发言者 - 听众查询对的房间冲激响应。大量在 Matterport3D 和 Replica 数据集上进行的实验验证了我们框架的有效性。