RGI-Net:在缺乏一阶回声的条件下从房间脉冲响应中推断 3D 房间几何
本研究提出了一种基于生成敌对网络(GAN)的结构,通过编码反射语音中的 RIR 特征并构建 RIR,使用新颖的能量衰减缓解损失来优化模型,从而提高自动语音识别(ASR)系统的性能,实验证明该模型在声学基准测试和 ASR 评估任务中都比现有模型表现更好。
Nov, 2022
该论文研究了室内指纹识别,通过分析音频记录以确定录制音频时所在房间的音量和形状。提出了一种双编码器架构,可直接从语音中估算房间参数,通过对比损失函数将语音和声学响应联合嵌入,通过在预训练和微调阶段的训练实现具体的分类任务,并在测试阶段使用嵌入来进行房间形状分类。该方案在模拟声学环境中进行了广泛评估。
Jun, 2024
准确估计室内脉冲响应(Room Impulse Response,RIR)对于语音处理和增强实境 / 虚境应用非常重要。本文提出了 AV-RIR,一种新颖的多模态多任务学习方法,能够准确从给定的回声语音信号和对应环境的视觉线索中估计 RIR。AV-RIR 基于一种能有效捕捉环境几何和材质特性的新型神经编解码器架构,通过多任务学习将语音降噪作为辅助任务进行求解。我们还提出了 Geo-Mat 特征,将材料信息加入到视觉线索中,并通过图像 - RIR 检索改进了所估计的 RIR 中的后期混响成分。实证结果表明,AV-RIR 在 RIR 估计的各种声学度量标准上优于先前的仅音频和仅视觉方法,改进幅度在 36% 至 63% 之间。此外,它在人类评估中也获得了更高的偏好评分。作为一个附带效果,AV-RIR 的去混响语音在各种口语处理任务中显示出竞争性能,并在实际 AVSpeech 数据集中超过了混响时间误差评分。可以在此 https URL 找到合成的回声语音和增强后的语音的定性示例。
Nov, 2023
我们提出了一个神经网络模型,可以使用两个麦克风在不同的角度区域将目标语音源与干扰源分离。该模型使用模拟的室内脉冲响应进行训练,无需收集真实的脉冲响应。通过依赖特定的角度区域和多个房间模拟,该模型利用一致的到达时间差(TDOA)线索,或者我们称之为延迟对比,将目标和干扰源分离,同时在各种混响环境中保持稳健性。我们展示了该模型不仅适用于具有稍微不同麦克风几何结构的商用设备,而且优于我们之前使用同一设备上的一个额外麦克风的工作。该模型在设备上实时运行,适用于低延迟的流媒体应用,如电话和视频会议。
Jan, 2024
探究结合盲音频录音和 3D 场景信息对新视角声学合成的益处。通过 2-4 个麦克风的音频录音和包含多个未知声源的场景的 3D 几何学和材料,估计场景中的任何声音。我们确定了新视角声学合成的主要挑战,即声源定位、分离和去混响。虽然简单地训练端到端网络不能产生高质量的结果,但我们证明了融入从 3D 重建房间导出的房间脉冲响应(RIRs)使得相同的网络能够统一解决这些任务。我们的方法优于针对各个任务设计的现有方法,证明其在利用 3D 视觉信息方面的有效性。在 Matterport3D-NVAS 数据集上的模拟研究中,我们的模型在源定位方面实现了接近完美的准确性,源分离和去混响方面的 PSNR 为 26.44 dB 和 SDR 为 14.23 dB,从而在新视角声学合成方面获得了 PSNR 为 25.55 dB 和 SDR 为 14.20 dB 的结果。项目网页提供了代码、预训练模型和视频结果。
Oct, 2023
本文采用卷积前馈神经网络来解决超出直线视野成像中的复杂非线性细节重建问题,能够高效地生成大量的训练数据。实验结果表明,我们的前向传播网络,即使仅在合成数据上训练,也能推广到 SPAD 传感器的测量数据,并能够获得与基于模型的重建方法相媲美的结果。
Jan, 2020
本文提出了一种新颖的框架,将物理和机器学习方法相结合,用于分析声学信号。该框架包括三种方法:用贝叶斯推断法推断谱声学特性,将神经网络配备前向和反向物理损失的神经物理模型,以及用作基准的非线性最小二乘法。推断的传播系数导致室内冲激响应(RIR)量,可用于带有不确定性的重定位。这一框架的简单和高效在模拟数据上得到了实证验证。
May, 2023