协作多智能体声学测量
通过使用视觉和声音传感器数据,我们提出了一种新的任务 —— 主动声学采样,其通过移动代理在实时环境中建立环境声学模型和占据地图,以及确定最佳声学数据采样位置,从而以最少的声学样本得到高质量的环境声学模型。我们通过基于环境声学模型中的信息增益的新型强化学习奖励来训练我们的策略,在来自先进声学模拟平台的多样未知室内环境上评估,发现 ActiveRIR 优于传统导航代理、基于空间新颖性和视觉探索的方法以及现有最先进的方法。
Apr, 2024
现有 RIR 数据集要么不系统地变化室内物体的位置,要么由模拟的 RIR 构成。我们提供了 SoundCam,这是迄今为止最大的野外房间独特 RIR 数据集,包括 5,000 个 10 通道真实世界房间冲激响应测量和 2,000 个 10 通道音乐录音,涵盖不同房间(实验室、客厅和会议室)内的人员在不同位置,这些测量可以用于有趣的任务,如检测和识别人员以及跟踪其位置。
Nov, 2023
该论文研究了室内指纹识别,通过分析音频记录以确定录制音频时所在房间的音量和形状。提出了一种双编码器架构,可直接从语音中估算房间参数,通过对比损失函数将语音和声学响应联合嵌入,通过在预训练和微调阶段的训练实现具体的分类任务,并在测试阶段使用嵌入来进行房间形状分类。该方案在模拟声学环境中进行了广泛评估。
Jun, 2024
本研究旨在利用人工智能确定最佳演出场所并利用房间声学来提高声音的知觉质量。通过使用卷积神经网络架构,确定与具体音乐类型和音符相对应的房间脉冲响应,从而为任何音频样本提供感知愉悦度自动评分功能。利用模拟的房间脉冲响应库,将声音转换为在特定房间内播放的效果。此外,还可以利用房间声学将低质量的声音转换为 “好” 的声音。
Aug, 2022
准确估计室内脉冲响应(Room Impulse Response,RIR)对于语音处理和增强实境 / 虚境应用非常重要。本文提出了 AV-RIR,一种新颖的多模态多任务学习方法,能够准确从给定的回声语音信号和对应环境的视觉线索中估计 RIR。AV-RIR 基于一种能有效捕捉环境几何和材质特性的新型神经编解码器架构,通过多任务学习将语音降噪作为辅助任务进行求解。我们还提出了 Geo-Mat 特征,将材料信息加入到视觉线索中,并通过图像 - RIR 检索改进了所估计的 RIR 中的后期混响成分。实证结果表明,AV-RIR 在 RIR 估计的各种声学度量标准上优于先前的仅音频和仅视觉方法,改进幅度在 36% 至 63% 之间。此外,它在人类评估中也获得了更高的偏好评分。作为一个附带效果,AV-RIR 的去混响语音在各种口语处理任务中显示出竞争性能,并在实际 AVSpeech 数据集中超过了混响时间误差评分。可以在此 https URL 找到合成的回声语音和增强后的语音的定性示例。
Nov, 2023
音频对抗样本指对自动语音识别系统进行欺骗的音频文件,既能愚弄自动语音识别系统又能在人类听众中听起来正常。本文介绍了一种集成算法,在生成步骤中使用了心理声学模型和房间脉冲响应。我们通过三个实验比较不同方法的效果,包括在模拟环境和真实无线环境中评估鲁棒性,以及在人类研究中评估可感知性。我们的算法在考虑心理声学效果或结合鲁棒性时,信噪比和人类感知研究都有所改善,但错误率有所增加。
Oct, 2023
本文提出了一种新颖的框架,将物理和机器学习方法相结合,用于分析声学信号。该框架包括三种方法:用贝叶斯推断法推断谱声学特性,将神经网络配备前向和反向物理损失的神经物理模型,以及用作基准的非线性最小二乘法。推断的传播系数导致室内冲激响应(RIR)量,可用于带有不确定性的重定位。这一框架的简单和高效在模拟数据上得到了实证验证。
May, 2023
提出了一种新颖的神经音频环境场方法(NACF),通过利用多个声学环境上下文参数化音频场景,考虑了声学属性,实验结果表明 NACF 优于现有基于场的方法。
Sep, 2023