Image2Reverb: 跨模态混响脉冲响应合成
准确估计室内脉冲响应(Room Impulse Response,RIR)对于语音处理和增强实境 / 虚境应用非常重要。本文提出了 AV-RIR,一种新颖的多模态多任务学习方法,能够准确从给定的回声语音信号和对应环境的视觉线索中估计 RIR。AV-RIR 基于一种能有效捕捉环境几何和材质特性的新型神经编解码器架构,通过多任务学习将语音降噪作为辅助任务进行求解。我们还提出了 Geo-Mat 特征,将材料信息加入到视觉线索中,并通过图像 - RIR 检索改进了所估计的 RIR 中的后期混响成分。实证结果表明,AV-RIR 在 RIR 估计的各种声学度量标准上优于先前的仅音频和仅视觉方法,改进幅度在 36% 至 63% 之间。此外,它在人类评估中也获得了更高的偏好评分。作为一个附带效果,AV-RIR 的去混响语音在各种口语处理任务中显示出竞争性能,并在实际 AVSpeech 数据集中超过了混响时间误差评分。可以在此 https URL 找到合成的回声语音和增强后的语音的定性示例。
Nov, 2023
该论文研究了室内指纹识别,通过分析音频记录以确定录制音频时所在房间的音量和形状。提出了一种双编码器架构,可直接从语音中估算房间参数,通过对比损失函数将语音和声学响应联合嵌入,通过在预训练和微调阶段的训练实现具体的分类任务,并在测试阶段使用嵌入来进行房间形状分类。该方案在模拟声学环境中进行了广泛评估。
Jun, 2024
通过机器人之间的合作,有效移动并进行发射 / 接收扫频信号,以测量环境的声学特性并减小预测误差,我们提出了解决多智能体协同环境声学测量问题的首个问题定义和解决方案。
Oct, 2023
现有 RIR 数据集要么不系统地变化室内物体的位置,要么由模拟的 RIR 构成。我们提供了 SoundCam,这是迄今为止最大的野外房间独特 RIR 数据集,包括 5,000 个 10 通道真实世界房间冲激响应测量和 2,000 个 10 通道音乐录音,涵盖不同房间(实验室、客厅和会议室)内的人员在不同位置,这些测量可以用于有趣的任务,如检测和识别人员以及跟踪其位置。
Nov, 2023
本研究提出了一种基于生成敌对网络(GAN)的结构,通过编码反射语音中的 RIR 特征并构建 RIR,使用新颖的能量衰减缓解损失来优化模型,从而提高自动语音识别(ASR)系统的性能,实验证明该模型在声学基准测试和 ASR 评估任务中都比现有模型表现更好。
Nov, 2022
本研究旨在利用人工智能确定最佳演出场所并利用房间声学来提高声音的知觉质量。通过使用卷积神经网络架构,确定与具体音乐类型和音符相对应的房间脉冲响应,从而为任何音频样本提供感知愉悦度自动评分功能。利用模拟的房间脉冲响应库,将声音转换为在特定房间内播放的效果。此外,还可以利用房间声学将低质量的声音转换为 “好” 的声音。
Aug, 2022
探究结合盲音频录音和 3D 场景信息对新视角声学合成的益处。通过 2-4 个麦克风的音频录音和包含多个未知声源的场景的 3D 几何学和材料,估计场景中的任何声音。我们确定了新视角声学合成的主要挑战,即声源定位、分离和去混响。虽然简单地训练端到端网络不能产生高质量的结果,但我们证明了融入从 3D 重建房间导出的房间脉冲响应(RIRs)使得相同的网络能够统一解决这些任务。我们的方法优于针对各个任务设计的现有方法,证明其在利用 3D 视觉信息方面的有效性。在 Matterport3D-NVAS 数据集上的模拟研究中,我们的模型在源定位方面实现了接近完美的准确性,源分离和去混响方面的 PSNR 为 26.44 dB 和 SDR 为 14.23 dB,从而在新视角声学合成方面获得了 PSNR 为 25.55 dB 和 SDR 为 14.20 dB 的结果。项目网页提供了代码、预训练模型和视频结果。
Oct, 2023
提出了一种新颖的神经音频环境场方法(NACF),通过利用多个声学环境上下文参数化音频场景,考虑了声学属性,实验结果表明 NACF 优于现有基于场的方法。
Sep, 2023