随地聆听
准确估计室内脉冲响应(Room Impulse Response,RIR)对于语音处理和增强实境 / 虚境应用非常重要。本文提出了 AV-RIR,一种新颖的多模态多任务学习方法,能够准确从给定的回声语音信号和对应环境的视觉线索中估计 RIR。AV-RIR 基于一种能有效捕捉环境几何和材质特性的新型神经编解码器架构,通过多任务学习将语音降噪作为辅助任务进行求解。我们还提出了 Geo-Mat 特征,将材料信息加入到视觉线索中,并通过图像 - RIR 检索改进了所估计的 RIR 中的后期混响成分。实证结果表明,AV-RIR 在 RIR 估计的各种声学度量标准上优于先前的仅音频和仅视觉方法,改进幅度在 36% 至 63% 之间。此外,它在人类评估中也获得了更高的偏好评分。作为一个附带效果,AV-RIR 的去混响语音在各种口语处理任务中显示出竞争性能,并在实际 AVSpeech 数据集中超过了混响时间误差评分。可以在此 https URL 找到合成的回声语音和增强后的语音的定性示例。
Nov, 2023
通过使用视觉和声音传感器数据,我们提出了一种新的任务 —— 主动声学采样,其通过移动代理在实时环境中建立环境声学模型和占据地图,以及确定最佳声学数据采样位置,从而以最少的声学样本得到高质量的环境声学模型。我们通过基于环境声学模型中的信息增益的新型强化学习奖励来训练我们的策略,在来自先进声学模拟平台的多样未知室内环境上评估,发现 ActiveRIR 优于传统导航代理、基于空间新颖性和视觉探索的方法以及现有最先进的方法。
Apr, 2024
探究结合盲音频录音和 3D 场景信息对新视角声学合成的益处。通过 2-4 个麦克风的音频录音和包含多个未知声源的场景的 3D 几何学和材料,估计场景中的任何声音。我们确定了新视角声学合成的主要挑战,即声源定位、分离和去混响。虽然简单地训练端到端网络不能产生高质量的结果,但我们证明了融入从 3D 重建房间导出的房间脉冲响应(RIRs)使得相同的网络能够统一解决这些任务。我们的方法优于针对各个任务设计的现有方法,证明其在利用 3D 视觉信息方面的有效性。在 Matterport3D-NVAS 数据集上的模拟研究中,我们的模型在源定位方面实现了接近完美的准确性,源分离和去混响方面的 PSNR 为 26.44 dB 和 SDR 为 14.23 dB,从而在新视角声学合成方面获得了 PSNR 为 25.55 dB 和 SDR 为 14.20 dB 的结果。项目网页提供了代码、预训练模型和视频结果。
Oct, 2023
通过机器人之间的合作,有效移动并进行发射 / 接收扫频信号,以测量环境的声学特性并减小预测误差,我们提出了解决多智能体协同环境声学测量问题的首个问题定义和解决方案。
Oct, 2023
该论文研究了室内指纹识别,通过分析音频记录以确定录制音频时所在房间的音量和形状。提出了一种双编码器架构,可直接从语音中估算房间参数,通过对比损失函数将语音和声学响应联合嵌入,通过在预训练和微调阶段的训练实现具体的分类任务,并在测试阶段使用嵌入来进行房间形状分类。该方案在模拟声学环境中进行了广泛评估。
Jun, 2024
现有 RIR 数据集要么不系统地变化室内物体的位置,要么由模拟的 RIR 构成。我们提供了 SoundCam,这是迄今为止最大的野外房间独特 RIR 数据集,包括 5,000 个 10 通道真实世界房间冲激响应测量和 2,000 个 10 通道音乐录音,涵盖不同房间(实验室、客厅和会议室)内的人员在不同位置,这些测量可以用于有趣的任务,如检测和识别人员以及跟踪其位置。
Nov, 2023
本研究提出了一种基于生成敌对网络(GAN)的结构,通过编码反射语音中的 RIR 特征并构建 RIR,使用新颖的能量衰减缓解损失来优化模型,从而提高自动语音识别(ASR)系统的性能,实验证明该模型在声学基准测试和 ASR 评估任务中都比现有模型表现更好。
Nov, 2022
提出了一种新颖的神经音频环境场方法(NACF),通过利用多个声学环境上下文参数化音频场景,考虑了声学属性,实验结果表明 NACF 优于现有基于场的方法。
Sep, 2023
音频对抗样本指对自动语音识别系统进行欺骗的音频文件,既能愚弄自动语音识别系统又能在人类听众中听起来正常。本文介绍了一种集成算法,在生成步骤中使用了心理声学模型和房间脉冲响应。我们通过三个实验比较不同方法的效果,包括在模拟环境和真实无线环境中评估鲁棒性,以及在人类研究中评估可感知性。我们的算法在考虑心理声学效果或结合鲁棒性时,信噪比和人类感知研究都有所改善,但错误率有所增加。
Oct, 2023