三维重建房间的新颖视角声学合成

Oct, 2023

三维重建房间的新颖视角声学合成

Novel-View Acoustic Synthesis from 3D Reconstructed Rooms

Byeongjoo Ahn, Karren Yang, Brian Hamilton, Jonathan Sheaffer, Anurag Ranjan...

TL;DR探究结合盲音频录音和 3D 场景信息对新视角声学合成的益处。通过 2-4 个麦克风的音频录音和包含多个未知声源的场景的 3D 几何学和材料，估计场景中的任何声音。我们确定了新视角声学合成的主要挑战，即声源定位、分离和去混响。虽然简单地训练端到端网络不能产生高质量的结果，但我们证明了融入从 3D 重建房间导出的房间脉冲响应（RIRs）使得相同的网络能够统一解决这些任务。我们的方法优于针对各个任务设计的现有方法，证明其在利用 3D 视觉信息方面的有效性。在 Matterport3D-NVAS 数据集上的模拟研究中，我们的模型在源定位方面实现了接近完美的准确性，源分离和去混响方面的 PSNR 为 26.44 dB 和 SDR 为 14.23 dB，从而在新视角声学合成方面获得了 PSNR 为 25.55 dB 和 SDR 为 14.20 dB 的结果。项目网页提供了代码、预训练模型和视频结果。

Abstract

We investigate the benefit of combining blind audio recordings with 3D scene information for novel-view acoustic synthesis. Given audio recordings from 2-4 microphones and the 3D geometry and material of a scene containing multiple unknown sound sources, we estimate the sound anywhere

novel-view acoustic synthesis 3d scene information sound source localization source separation dereverberation

发现论文，激发创造

随地聆听

通过 DiffRIR 的不同 iable RIR 渲染框架，使用场景的参数化模型，合成具有各种声音特征的新的听觉体验。

Jun, 2024

MuSHRoom：多传感器混合室内数据集用于联合三维重建和新视点合成

通过提出多传感器混合房间数据集（MuSHRoom），对几个著名管道进行基准测试，并提出一种新的方法，可以在消费级设备上实现 3D 重建和新视角合成的融合，从而促进了提高 3D 重建和高质量渲染的性能。

Nov, 2023

AV-GS：学习材料和几何感知先验用于新视角声学合成

基于点云场景表示的新型视角声学合成模型（AV-GS）能够以音频作为条件在中心点场景中合成立体声音频，通过学习、优化分布的高斯点云欧几里得距离参数，来实现音频适应性的场景模型。

Jun, 2024

室内三维场景的简单有效合成

研究如何从 1 或多张图像中合成逼真的室内 3D 场景，采用了基于图像的 GAN 来直接映射成高分辨率的 RGB-D 图像，及在 VLN 训练中进行空间干扰以提高成功率。

Apr, 2022

从宽基线立体对学习生成新视角

介绍了一种用于单个广角立体图像对的新视角合成的方法，包括 3D 场景重构和外观变化的先验模型，提出了一种多视角变换编码器、图像上的极线采样方案和轻量级交叉注意力渲染器，通过大规模实际数据集的训练，证明了模型学习到了强大的多视角几何先验，大大缩短了渲染时间，并在两个实际数据集上得到了显著的优越性能。

Apr, 2023

快速明确的神经视图合成

本文研究了从稀疏源观测中合成新视角的问题，提出了一种简单而有效的方法，通过将观测编码到体积表示中进行摊销渲染，并通过自我监督信号实现了对 3D 几何的有效学习。

Jul, 2021

单室内全景布局指导的新视角合成

本文提出一种从单个室内全景图生成新视角的方法，在使用卷积神经网络提取深层特征和估计深度图的基础上，利用室内场景的布局信息指导目标视角图像的生成，并加入几何约束以提高一致性和鲁棒性。实验结果表明，该方法在小大相机移动下均有较好效果。

Mar, 2021

使用双目相机实现可推广的新视点合成

提出了一种针对多视点立体相机图像的第一种通用视角合成方法，该方法引入了立体匹配以实现高质量的几何重建。该方法包括三个关键组件：立体特征提取器、深度引导的平面扫描和立体深度损失，并提出了第一个多视点数据集 StereoNVS，实验证明该方法优于以前的方法。

Apr, 2024

Image2Reverb: 跨模态混响脉冲响应合成

通过使用神经网络从单幅图像生成音响脉冲响应，可以模拟图片所示的空间中的混响特性，为测量空间的声学特征提供了一个更加便捷的方法。

Mar, 2021

双耳角度分离网络

我们提出了一个神经网络模型，可以使用两个麦克风在不同的角度区域将目标语音源与干扰源分离。该模型使用模拟的室内脉冲响应进行训练，无需收集真实的脉冲响应。通过依赖特定的角度区域和多个房间模拟，该模型利用一致的到达时间差（TDOA）线索，或者我们称之为延迟对比，将目标和干扰源分离，同时在各种混响环境中保持稳健性。我们展示了该模型不仅适用于具有稍微不同麦克风几何结构的商用设备，而且优于我们之前使用同一设备上的一个额外麦克风的工作。该模型在设备上实时运行，适用于低延迟的流媒体应用，如电话和视频会议。

Jan, 2024