双耳角度分离网络

Jan, 2024

Binaural Angular Separation Network

Yang Yang, George Sung, Shao-Fu Shih, Hakan Erdogan, Chehung Lee...

TL;DR我们提出了一个神经网络模型，可以使用两个麦克风在不同的角度区域将目标语音源与干扰源分离。该模型使用模拟的室内脉冲响应进行训练，无需收集真实的脉冲响应。通过依赖特定的角度区域和多个房间模拟，该模型利用一致的到达时间差（TDOA）线索，或者我们称之为延迟对比，将目标和干扰源分离，同时在各种混响环境中保持稳健性。我们展示了该模型不仅适用于具有稍微不同麦克风几何结构的商用设备，而且优于我们之前使用同一设备上的一个额外麦克风的工作。该模型在设备上实时运行，适用于低延迟的流媒体应用，如电话和视频会议。

Abstract

We propose a neural network model that can separate target speech sources from interfering sources at different angular regions using two

neural network model target speech sources angular regions room impulse responses time difference of arrival cues

发现论文，激发创造

实时双耳语音分离并保留空间提示

本文提出了一种基于 TasNet 的多输入多输出的语音分离算法，该算法能够保留声源的空间信息，实现实时修改声学场景，并在不同声学场景中显著改善分离性能并保持位置感知。

Feb, 2020

学习通过空间区域分离音频

本文提出一种两阶段的自我监督框架，旨在实现耳机和助听器等双耳应用中的音频语音分离，该方法通过区域方式将具有细粒度空间属性的自适应信号从底噪中分离出来进行训练，并表现出远超通用监督学习的性能。

Jul, 2022

随地聆听

通过 DiffRIR 的不同 iable RIR 渲染框架，使用场景的参数化模型，合成具有各种声音特征的新的听觉体验。

Jun, 2024

神经网络实现的 Ambisonic 信号的双耳渲染

通过构建 paired ambisonic-binaural 数据集，并提出了一种基于深度学习的框架，实现了 binaural rendering of ambisonic signals 的自动化，相比传统方法性能更优，可应用于虚拟现实和沉浸式媒体。

Nov, 2022

会议在线发言人分化的语音分离指导

我们介绍了一种新的基于语音分离引导的在线发言人分化方案，适用于持续变动的说话人数量的长时间会议录音。

Jan, 2024

定位实现语音分离的保密锥

使用深度网络在波形领域内，以角度感兴趣和角度窗口大小为输入，同时定位来源并分离个别说话者，以实现无限制数量并在高背景噪声下取得最先进的成果。

Oct, 2020

时空神经滤波器：方向感知的端对端多通道目标语音分离

本文提出了一种时空神经滤波器，通过方向信息的辅助作用，从具有混响的多人语音混合物中直接估计目标语音波形，以提高目标和干扰源之间的时域、频域和空域可辨识度，并设计了一种全卷积自动编码器框架用于快速和端到端的语音分离处理。

Jan, 2020

三维重建房间的新颖视角声学合成

探究结合盲音频录音和 3D 场景信息对新视角声学合成的益处。通过 2-4 个麦克风的音频录音和包含多个未知声源的场景的 3D 几何学和材料，估计场景中的任何声音。我们确定了新视角声学合成的主要挑战，即声源定位、分离和去混响。虽然简单地训练端到端网络不能产生高质量的结果，但我们证明了融入从 3D 重建房间导出的房间脉冲响应（RIRs）使得相同的网络能够统一解决这些任务。我们的方法优于针对各个任务设计的现有方法，证明其在利用 3D 视觉信息方面的有效性。在 Matterport3D-NVAS 数据集上的模拟研究中，我们的模型在源定位方面实现了接近完美的准确性，源分离和去混响方面的 PSNR 为 26.44 dB 和 SDR 为 14.23 dB，从而在新视角声学合成方面获得了 PSNR 为 25.55 dB 和 SDR 为 14.20 dB 的结果。项目网页提供了代码、预训练模型和视频结果。

Oct, 2023

混响作为语音分离监督

本文提出了一种新的无监督算法损失函数，称为混响作为监督（RAS），使用两个信道的混合信号，训练神经网络以分离源，并通过维纳滤波器来评估所分离出的混响信号。实验结果表明，相对于只使用已标注数据和使用完整数据的有监督算法，本方法在只有 5% 到 10% 的标注数据时可以获得可观的性能优越性。

Nov, 2022

卷积循环神经网络多声源到达方向估计

本文提出了一种深度神经网络，用于估算多个声源的到达方向，并通过使用所有通道的频谱图的幅度和相位作为输入来避免任何显式特征提取步骤。结论表明，该网络能够以高精度估算多个同时存在源的数量和各自的到达方向，并生成具有高信噪比的空间伪频谱。

Oct, 2017