使用噪声训练的卷积神经网络多说话人定位

NIPSDec, 2017

使用噪声训练的卷积神经网络多说话人定位

Multi-Speaker Localization Using Convolutional Neural Network Trained with Noise

Soumitro Chakrabarty, Emanuël A. P. Habets

TL;DR使用卷积神经网络原理，对多说话人的来源定位问题提出了一种基于合成噪声信号训练 CNN 的新方法，并进行了与其它方法的比较。

Abstract

The problem of multi-speaker localization is formulated as a multi-class multi-label classification problem, which is solved using a convolutional neural network (CNN) based source localization method. Utilizing

multi-speaker localization convolutional neural network source localization method disjoint speaker activities steered response power method

发现论文，激发创造

使用卷积神经网络在多径环境中进行声源定位

本文提出使用卷积神经网络 (CNNs) 在浅水复途径环境下，对宽带声辐射噪声源（如机动船只）的源定位，通过使用 cepstrogram 和广义交叉相关图作为输入，显示出更可靠的效果，同时证明了在海上实验中，相比传统的被动测距方法，其定位性能得到了改进。

Oct, 2017

深度神经网络用于多说话者检测和定位

本文提出了一种使用神经网络在人机交互中同时检测和定位多个声源的方法，并采用基于概率的编码以实现对任意数量声源的检测；此外，文章探讨了基于子带交叉相关信息的特征及三种不同基于不同动机的网络架构，实验表明该方法优于传统的空间谱法。

Nov, 2017

基于深度学习的端到端声学定位：从音频信号到源位置坐标

本文提出了一种新颖的室内声源定位方法，使用麦克风阵列并基于卷积神经网络（CNN）进行，该方法采用原始音频信号作为输入信息直接估计声源的三维位置，避免了手工制作音频特征。通过使用半合成数据作为训练策略并在实际数据上进行微调，该方法能够显著改善基于 ${SRP-PHAT}$ 策略的现有定位方法，并且展现出更好的对抗不同说话者性别和不同窗口大小的性能。

Jul, 2018

利用视觉监督进行基于阵列的主动说话人检测和定位

通过用从多通道音频中提取的空间输入特征进行训练的简单音频卷积循环神经网络（CRNN），可以独立于视觉模态进行同时水平活动说话者检测和定位（ASDL），超越典型的音频 - 视觉方法的性能并产生竞争性结果的成本昂贵的传统监督式训练。

Dec, 2023

通过概率空间建模的自监督神经音频视觉声源定位

该论文介绍了一种利用 360 度图像和多通道音频信号的自监督训练方法来训练深度神经网络以区分多个声源对象的系统，旨在解决自主机器人理解周围环境的问题。

Jul, 2020

利用深度学习的阶段麦克风阵列进行声源定位

本研究采用了卷积神经网络作为一种高效且具有高精度的算法，通过对交叉谱矩阵的直接分析寻找声源分布，从而在高频下以很短的时间内实现与传统波束成形相同精度的声源定位。

Feb, 2018

噪声环境中音频特征分析的 LSTM-CNN 网络

通过使用长短时记忆卷积神经网络（LSTM-CNN），本研究针对有噪音环境下的每帧音频数据，提取时间和 / 或频率相关的声音特征，从而估计同时活动的说话者数量和性别。在公共城市、工业环境、商场、展览会、工作场所和自然环境等各种情况下，使用了 19000 个男性、女性和背景噪音的音频样本进行了学习。该概念验证表明，在检测计数和性别方面，训练 / 验证均方误差（MSE）值约为 0.019/0.017，显示出有希望的性能。

Dec, 2023

多音源二维定位学习

本文提出了基于深度学习的多声源定位算法，使用多个麦克风阵列找到封闭环境中多个声源的二维笛卡尔坐标，通过编码 - 解码结构和两个改进措施实现任务，并提出了两种新的定位表示方法，学习了新指标以实现分辨率基础上的多源关联和对比不同方法的评估。作者对合成和真实数据进行了测试，结果表明本方法改进了这一问题的基线方法。

Dec, 2020

深度多模态说话人命名

本文提出了一种基于卷积神经网络的学习框架，通过融合面部和音频线索，实现了自动说话人命名，并证明了该系统在不需要面部跟踪、面部标记定位或字幕 / 转录的情况下，可以在两个不同的电视剧中实现最先进的说话人命名性能。

Jul, 2015

使用深度神经网络在多噪声情况下进行语音增强

通过深度神经网络，在复杂的真实环境中去除多种噪声，提高办公室环境中含噪语音的质量，并研究基于语音编码的心理声学模型的 DNN 训练策略。

May, 2016