SPEAR：接收器对接收器声学神经扭曲场

Jun, 2024

SPEAR：接收器对接收器声学神经扭曲场

SPEAR: Receiver-to-Receiver Acoustic Neural Warping Field

Yuhang He, Shitong Xu, Jia-Xing Zhong, Sangyun Shin, Niki Trigoni...

TL;DR我们提出了 SPEAR，这是一种连续的接收器到接收器声学神经弯曲场，用于在一个声学三维空间中预测声学效应，具有单个静止音源。与传统的从源到接收器建模方法不同，该方法需要先验的空间声学特性知识来严格建模源到接收器的声音传播，我们提出通过将空间声学效应从一个参考接收器位置弯曲到另一个目标接收器位置来进行预测，从而使弯曲的声音包含目标位置的所有空间声学效应。SPEAR 可以以一种更容易获取的方式进行训练，我们只需让两个机器人在不同位置独立记录空间音频。我们进一步从理论上证明了弯曲场的通用存在性，仅当存在一个音频源时才存在。我们将三个物理原理纳入 SPEAR 网络设计中，从而使学习到的弯曲场在物理上具有意义。我们展示了 SPEAR 在合成的逼真数据集、照片级真实数据集和真实世界数据集上的优越性，显示了 SPEAR 在各种下游机器人任务中的巨大潜力。

Abstract

We present spear, a continuous receiver-to-receiver acoustic neural warping field for spatial acoustic effects prediction in an acoustic 3D space with a single stationary audio source. Unlike traditional source-t

spear acoustic neural warping field spatial acoustic effects audio propagation robotic tasks

发现论文，激发创造

学习神经声场

本文介绍了神经声学场（NAFs），一种能够捕捉声音在物理环境中传播的隐式函数表示，通过将声学传播建模为一个线性时不变系统，NAFs 能够连续地将所有发送与接收方位置匹配映射到神经脉冲响应函数，从而可以应用于任意声音，同时 NAFs 中学习到的场景结构信息能够帮助改善稀疏视图的视觉学习。

Apr, 2022

AudioEar：针对个性化空间音频的单视图耳重建

本研究提出了通过单视图图像重建 3D 人类耳形来实现个性化空间音频渲染的方法，并开发了 AudioEar3D 和 AudioEar2D 两个公开数据集，最后通过将重建后的耳形与现成的 3D 人体模型集成，来模拟人的听觉传递函数，从而实现了基于不同人体解剖结构的个性化空间音频渲染。

Jan, 2023

音频 - 视觉导航的模拟到现实迁移和频率自适应声场预测

在学习机器人任务与模拟端到端成功的基础上，视觉导航策略的转换取得了很大进展，然而，现有的声音 - 视觉导航的模拟到真实转换策略在进行数据增强时往往是经验性的，而没有对声学差异进行测量。本文提出了首个声音 - 视觉导航的模拟到真实处理方法，将其分解为声学场预测和路标导航，通过在 SoundSpaces 模拟器上验证我们的设计选择并在连续音频目标导航基准上展示改进，通过训练仅接受特定频率子带作为输入的声学场预测模型来收集真实世界数据，测量模拟与真实世界之间的频谱差异，进一步提出基于测量频谱差异和接收音频能量分布的频率自适应策略，从而改善在真实数据上的性能，最后，我们构建了一个真实的机器人平台，并展示了转化的策略能够成功导航到具有声音的对象。这项工作展示了在完全从模拟中看、听和行动的智能代理构建的潜力，并将其转移到真实世界。

May, 2024

时空神经滤波器：方向感知的端对端多通道目标语音分离

本文提出了一种时空神经滤波器，通过方向信息的辅助作用，从具有混响的多人语音混合物中直接估计目标语音波形，以提高目标和干扰源之间的时域、频域和空域可辨识度，并设计了一种全卷积自动编码器框架用于快速和端到端的语音分离处理。

Jan, 2020

SOAF: 场景遮挡感知的神经声场

该论文解决了在室内场景中沿任意轨迹的新视觉音频综合问题，提出了一种考虑房间几何特性和墙壁遮挡对声音传播的影响的新方法，通过从输入视频中学习场景透射率并使用距离感知的参数化声音传播建模生成准确声音，并使用基于斐波那契球的局部声学场特征提取和定向感知的注意机制生成新视角的双耳音频，通过在真实数据集和合成数据集上的广泛实验证明了该方法在音频生成方面的优越性。

Jul, 2024

NeRAF：三维场景中嵌入的神经辐射和声场

NeRAF 是一种同时学习声音和辐射场的方法，用于实现逼真的视听生成，通过 3D 场景信息将声学场与辐射场联系起来。在 SoundSpaces 数据集上，NeRAF 相比之前的方法在性能上有显著的改进，并且具有更高的数据效率，同时通过跨模态学习增强了稀疏数据训练的复杂场景的新视图合成。

May, 2024

随地聆听

通过 DiffRIR 的不同 iable RIR 渲染框架，使用场景的参数化模型，合成具有各种声音特征的新的听觉体验。

Jun, 2024

利用自注意力通道组合的远场 ASR 空间处理前端

提出了一种基于多通道前端与加权预测误差方法、定向最小方差冲束形成器和基于自注意力的通道合并方案的 ASR 系统，结合 ContextNet 系统，相比其他 ASR 系统在多通道语音识别问题上取得了更好的效果，并验证了前置去混响和改进的神经通道缩短方法带来的益处，同时探讨了 C50 声信噪比的评估和权重的意义。

Mar, 2022

贝叶斯推断与神经估计声波传播

本文提出了一种新颖的框架，将物理和机器学习方法相结合，用于分析声学信号。该框架包括三种方法：用贝叶斯推断法推断谱声学特性，将神经网络配备前向和反向物理损失的神经物理模型，以及用作基准的非线性最小二乘法。推断的传播系数导致室内冲激响应（RIR）量，可用于带有不确定性的重定位。这一框架的简单和高效在模拟数据上得到了实证验证。

May, 2023

逼真互动三维场景中基于深度神经运算器参数化源的声音传播

在虚拟环境中进行声音传播模拟，使用深度运算网络逼近线性波动方程操作符，并实现快速预测具有移动来源的现实 3D 声学场景的声音传播，该方法标志着先前没有机器学习方法在现实领域内精确预测完整波场的革命。

Aug, 2023