Image2Reverb: 跨模态混响脉冲响应合成

ICCVMar, 2021

Image2Reverb: 跨模态混响脉冲响应合成

Image2Reverb: Cross-Modal Reverb Impulse Response Synthesis

Nikhil Singh, Jeff Mentch, Jerry Ng, Matthew Beveridge, Iddo Drori

TL;DR通过使用神经网络从单幅图像生成音响脉冲响应，可以模拟图片所示的空间中的混响特性，为测量空间的声学特征提供了一个更加便捷的方法。

Abstract

Measuring the acoustic characteristics of a space is often done by capturing its impulse response (IR), a representation of how a full-range stimulus sound excites it. This work generates an IR from a single imag

acoustic characteristics impulse response neural network simulation audio

发现论文，激发创造

随地聆听

通过 DiffRIR 的不同 iable RIR 渲染框架，使用场景的参数化模型，合成具有各种声音特征的新的听觉体验。

Jun, 2024

AV-RIR：音频 - 视觉房间冲激响应估计

准确估计室内脉冲响应（Room Impulse Response，RIR）对于语音处理和增强实境 / 虚境应用非常重要。本文提出了 AV-RIR，一种新颖的多模态多任务学习方法，能够准确从给定的回声语音信号和对应环境的视觉线索中估计 RIR。AV-RIR 基于一种能有效捕捉环境几何和材质特性的新型神经编解码器架构，通过多任务学习将语音降噪作为辅助任务进行求解。我们还提出了 Geo-Mat 特征，将材料信息加入到视觉线索中，并通过图像 - RIR 检索改进了所估计的 RIR 中的后期混响成分。实证结果表明，AV-RIR 在 RIR 估计的各种声学度量标准上优于先前的仅音频和仅视觉方法，改进幅度在 36% 至 63% 之间。此外，它在人类评估中也获得了更高的偏好评分。作为一个附带效果，AV-RIR 的去混响语音在各种口语处理任务中显示出竞争性能，并在实际 AVSpeech 数据集中超过了混响时间误差评分。可以在此 https URL 找到合成的回声语音和增强后的语音的定性示例。

Nov, 2023

RevRIR: 利用对比学习进行联合混响语音和室内冲激响应嵌入，应用于房间形状分类

该论文研究了室内指纹识别，通过分析音频记录以确定录制音频时所在房间的音量和形状。提出了一种双编码器架构，可直接从语音中估算房间参数，通过对比损失函数将语音和声学响应联合嵌入，通过在预训练和微调阶段的训练实现具体的分类任务，并在测试阶段使用嵌入来进行房间形状分类。该方案在模拟声学环境中进行了广泛评估。

Jun, 2024

协作多智能体声学测量

通过机器人之间的合作，有效移动并进行发射 / 接收扫频信号，以测量环境的声学特性并减小预测误差，我们提出了解决多智能体协同环境声学测量问题的首个问题定义和解决方案。

Oct, 2023

SoundCam: 利用室内声学定位人类的数据集

现有 RIR 数据集要么不系统地变化室内物体的位置，要么由模拟的 RIR 构成。我们提供了 SoundCam，这是迄今为止最大的野外房间独特 RIR 数据集，包括 5,000 个 10 通道真实世界房间冲激响应测量和 2,000 个 10 通道音乐录音，涵盖不同房间（实验室、客厅和会议室）内的人员在不同位置，这些测量可以用于有趣的任务，如检测和识别人员以及跟踪其位置。

Nov, 2023

针对语音识别的房间脉冲响应估计的改进

本研究提出了一种基于生成敌对网络（GAN）的结构，通过编码反射语音中的 RIR 特征并构建 RIR，使用新颖的能量衰减缓解损失来优化模型，从而提高自动语音识别（ASR）系统的性能，实验证明该模型在声学基准测试和 ASR 评估任务中都比现有模型表现更好。

Nov, 2022

通过 AI 选择的房间声学来增强音乐听觉体验

本研究旨在利用人工智能确定最佳演出场所并利用房间声学来提高声音的知觉质量。通过使用卷积神经网络架构，确定与具体音乐类型和音符相对应的房间脉冲响应，从而为任何音频样本提供感知愉悦度自动评分功能。利用模拟的房间脉冲响应库，将声音转换为在特定房间内播放的效果。此外，还可以利用房间声学将低质量的声音转换为 “好” 的声音。

Aug, 2022

三维重建房间的新颖视角声学合成

探究结合盲音频录音和 3D 场景信息对新视角声学合成的益处。通过 2-4 个麦克风的音频录音和包含多个未知声源的场景的 3D 几何学和材料，估计场景中的任何声音。我们确定了新视角声学合成的主要挑战，即声源定位、分离和去混响。虽然简单地训练端到端网络不能产生高质量的结果，但我们证明了融入从 3D 重建房间导出的房间脉冲响应（RIRs）使得相同的网络能够统一解决这些任务。我们的方法优于针对各个任务设计的现有方法，证明其在利用 3D 视觉信息方面的有效性。在 Matterport3D-NVAS 数据集上的模拟研究中，我们的模型在源定位方面实现了接近完美的准确性，源分离和去混响方面的 PSNR 为 26.44 dB 和 SDR 为 14.23 dB，从而在新视角声学合成方面获得了 PSNR 为 25.55 dB 和 SDR 为 14.20 dB 的结果。项目网页提供了代码、预训练模型和视频结果。

Oct, 2023

神经声学上下文场：利用神经场实现逼真的房间冲激响应

提出了一种新颖的神经音频环境场方法（NACF），通过利用多个声学环境上下文参数化音频场景，考虑了声学属性，实验结果表明 NACF 优于现有基于场的方法。

Sep, 2023

物理信息神经网络的隐式神经表示方法用于重建房间脉冲响应的早期部分

本文提出使用基于物理的神经网络重建声场早期部分，实现了准确的重建且维持轻量架构。

Jun, 2023