定位实现语音分离的保密锥

Oct, 2020

The Cone of Silence: Speech Separation by Localization

Teerapat Jenrungrot, Vivek Jayaram, Steve Seitz, Ira Kemelmacher-Shlizerman

TL;DR使用深度网络在波形领域内，以角度感兴趣和角度窗口大小为输入，同时定位来源并分离个别说话者，以实现无限制数量并在高背景噪声下取得最先进的成果。

Abstract

Given a multi-microphone recording of an unknown number of speakers talking concurrently, we simultaneously localize the sources and separate the individual speakers. At the core of our method is a deep network,

multi-microphone recording source localization source separation deep network background noise

发现论文，激发创造

学习通过空间区域分离音频

本文提出一种两阶段的自我监督框架，旨在实现耳机和助听器等双耳应用中的音频语音分离，该方法通过区域方式将具有细粒度空间属性的自适应信号从底噪中分离出来进行训练，并表现出远超通用监督学习的性能。

Jul, 2022

基于深度学习的端到端声学定位：从音频信号到源位置坐标

本文提出了一种新颖的室内声源定位方法，使用麦克风阵列并基于卷积神经网络（CNN）进行，该方法采用原始音频信号作为输入信息直接估计声源的三维位置，避免了手工制作音频特征。通过使用半合成数据作为训练策略并在实际数据上进行微调，该方法能够显著改善基于 ${SRP-PHAT}$ 策略的现有定位方法，并且展现出更好的对抗不同说话者性别和不同窗口大小的性能。

Jul, 2018

双耳角度分离网络

我们提出了一个神经网络模型，可以使用两个麦克风在不同的角度区域将目标语音源与干扰源分离。该模型使用模拟的室内脉冲响应进行训练，无需收集真实的脉冲响应。通过依赖特定的角度区域和多个房间模拟，该模型利用一致的到达时间差（TDOA）线索，或者我们称之为延迟对比，将目标和干扰源分离，同时在各种混响环境中保持稳健性。我们展示了该模型不仅适用于具有稍微不同麦克风几何结构的商用设备，而且优于我们之前使用同一设备上的一个额外麦克风的工作。该模型在设备上实时运行，适用于低延迟的流媒体应用，如电话和视频会议。

Jan, 2024

利用深度学习的阶段麦克风阵列进行声源定位

本研究采用了卷积神经网络作为一种高效且具有高精度的算法，通过对交叉谱矩阵的直接分析寻找声源分布，从而在高频下以很短的时间内实现与传统波束成形相同精度的声源定位。

Feb, 2018

通过说话人聚类的端到端语音分离算法 Wavesplit

Wavesplit 是一种端到端的源分离系统，可以通过聚类推断每个源的表示，并给出估计的源信号，从而重新定义干净的混合 2 或 3 个讲话者（WSJ0-2/3mix）以及嘈杂和混响环境（WHAM/WHAMR）的最新技术水平。

Feb, 2020

多音源二维定位学习

本文提出了基于深度学习的多声源定位算法，使用多个麦克风阵列找到封闭环境中多个声源的二维笛卡尔坐标，通过编码 - 解码结构和两个改进措施实现任务，并提出了两种新的定位表示方法，学习了新指标以实现分辨率基础上的多源关联和对比不同方法的评估。作者对合成和真实数据进行了测试，结果表明本方法改进了这一问题的基线方法。

Dec, 2020

使用卷积神经网络在多径环境中进行声源定位

本文提出使用卷积神经网络 (CNNs) 在浅水复途径环境下，对宽带声辐射噪声源（如机动船只）的源定位，通过使用 cepstrogram 和广义交叉相关图作为输入，显示出更可靠的效果，同时证明了在海上实验中，相比传统的被动测距方法，其定位性能得到了改进。

Oct, 2017

使用噪声训练的卷积神经网络多说话人定位

使用卷积神经网络原理，对多说话人的来源定位问题提出了一种基于合成噪声信号训练 CNN 的新方法，并进行了与其它方法的比较。

Dec, 2017

基于两阶段神经网络的声场分解

提出了一种基于神经网络的声场分解方法，包括声场分离阶段和单源定位阶段，通过将多个源合成的麦克风上的声压分离为每个声源对应的激发声压，在单源定位阶段中，通过对单一声源的麦克风上的声压进行回归来获取源位置，由于第二阶段是回归而不是分类，因此估计的位置不受离散化的影响。使用 Green's 函数进行模拟生成数据集，每个频率都训练神经网络。数值实验表明，与传统方法相比，所提出的方法可以实现更高的源定位精度和更高的声场重建精度。

Sep, 2023

深度神经网络用于多说话者检测和定位

本文提出了一种使用神经网络在人机交互中同时检测和定位多个声源的方法，并采用基于概率的编码以实现对任意数量声源的检测；此外，文章探讨了基于子带交叉相关信息的特征及三种不同基于不同动机的网络架构，实验表明该方法优于传统的空间谱法。

Nov, 2017