ICCVSep, 2023

通过对齐的跨模态蒸馏实现密集的二维 - 三维室内声音预测

TL;DR我们提出一种通过匹配实现视听知识传递的空间对齐引导模型 (distillation framework),能够在 2D 和 3D 中使用声音进行密集的室内预测。该模型通过将音频特征与视觉连贯的可学习空间嵌入进行整合,在学生模型的多个层次中解决不一致问题。我们的方法不依赖于特定的输入表示方式,可以灵活处理不同形状或维度的输入数据,而不会影响性能表现。通过新的基准数据集 DAPS(Dense Auditory Prediction of Surroundings),我们首次在 2D 和 3D 中利用音频观测数据解决了全方位密集室内预测问题,包括基于声音的深度估计、语义分割和具有挑战性的 3D 场景重构,在各种指标和骨干架构上始终取得了最先进的性能。