本文提出使用卷积神经网络 (CNNs) 在浅水复途径环境下,对宽带声辐射噪声源(如机动船只)的源定位,通过使用 cepstrogram 和广义交叉相关图作为输入, 显示出更可靠的效果,同时证明了在海上实验中,相比传统的被动测距方法,其定位性能得到了改进。
Oct, 2017
本文提出了一种使用神经网络在人机交互中同时检测和定位多个声源的方法,并采用基于概率的编码以实现对任意数量声源的检测;此外,文章探讨了基于子带交叉相关信息的特征及三种不同基于不同动机的网络架构,实验表明该方法优于传统的空间谱法。
Nov, 2017
本文提出了一种新颖的室内声源定位方法,使用麦克风阵列并基于卷积神经网络(CNN)进行,该方法采用原始音频信号作为输入信息直接估计声源的三维位置,避免了手工制作音频特征。通过使用半合成数据作为训练策略并在实际数据上进行微调,该方法能够显著改善基于 ${SRP-PHAT}$ 策略的现有定位方法,并且展现出更好的对抗不同说话者性别和不同窗口大小的性能。
Jul, 2018
通过用从多通道音频中提取的空间输入特征进行训练的简单音频卷积循环神经网络(CRNN),可以独立于视觉模态进行同时水平活动说话者检测和定位(ASDL),超越典型的音频 - 视觉方法的性能并产生竞争性结果的成本昂贵的传统监督式训练。
Dec, 2023
该论文介绍了一种利用 360 度图像和多通道音频信号的自监督训练方法来训练深度神经网络以区分多个声源对象的系统,旨在解决自主机器人理解周围环境的问题。
Jul, 2020
本研究采用了卷积神经网络作为一种高效且具有高精度的算法,通过对交叉谱矩阵的直接分析寻找声源分布,从而在高频下以很短的时间内实现与传统波束成形相同精度的声源定位。
Feb, 2018
通过使用长短时记忆卷积神经网络(LSTM-CNN),本研究针对有噪音环境下的每帧音频数据,提取时间和 / 或频率相关的声音特征,从而估计同时活动的说话者数量和性别。在公共城市、工业环境、商场、展览会、工作场所和自然环境等各种情况下,使用了 19000 个男性、女性和背景噪音的音频样本进行了学习。该概念验证表明,在检测计数和性别方面,训练 / 验证均方误差(MSE)值约为 0.019/0.017,显示出有希望的性能。
本文提出了基于深度学习的多声源定位算法,使用多个麦克风阵列找到封闭环境中多个声源的二维笛卡尔坐标,通过编码 - 解码结构和两个改进措施实现任务,并提出了两种新的定位表示方法,学习了新指标以实现分辨率基础上的多源关联和对比不同方法的评估。作者对合成和真实数据进行了测试,结果表明本方法改进了这一问题的基线方法。
Dec, 2020
本文提出了一种基于卷积神经网络的学习框架,通过融合面部和音频线索,实现了自动说话人命名,并证明了该系统在不需要面部跟踪、面部标记定位或字幕 / 转录的情况下,可以在两个不同的电视剧中实现最先进的说话人命名性能。
Jul, 2015
通过深度神经网络,在复杂的真实环境中去除多种噪声,提高办公室环境中含噪语音的质量,并研究基于语音编码的心理声学模型的 DNN 训练策略。
May, 2016