混响环境下多个移动说话者的在线定位和跟踪
本文提出了一种使用八个麦克风阵列实现鲁棒声源定位和跟踪的方法,可在 7 米范围内实时定位和跟踪多种类型的移动声源,从而使移动机器人能够在现实环境中更自然地与人们交互。
Feb, 2016
本文提出了基于深度学习的多声源定位算法,使用多个麦克风阵列找到封闭环境中多个声源的二维笛卡尔坐标,通过编码 - 解码结构和两个改进措施实现任务,并提出了两种新的定位表示方法,学习了新指标以实现分辨率基础上的多源关联和对比不同方法的评估。作者对合成和真实数据进行了测试,结果表明本方法改进了这一问题的基线方法。
Dec, 2020
本文提出了一种基于视听信息融合技术框架的多说话人跟踪系统,利用可变因素推断方法近似求解了连续和离散潜变量的后验联合分布,实现了跟踪对象的平滑轨迹估计和说话状态的判断。实验结果表明该方法在非正式会议中表现出较好的性能。
Sep, 2018
在商用设备上部署的低功耗边缘计算优化的实时因果神经网络活动说话人检测系统,通过来自麦克风阵列和 360 度摄像机的数据驱动虚拟电影摄影模块;与以往的研究不同,我们研究了网络在计算预算耗尽时的错误率,并发现它表现出优雅的降级,即使在此情况下系统仍能正常运行;与传统的声源角估计方法不同,我们的网络利用检测到的头部位置学习查询可用的声学数据;我们在一个现实的会议数据集上训练和评估我们的算法,该数据集包含达到 14 个与会者的同一会议、语音重叠和其他具有挑战性的场景。
Sep, 2023
当前的多通道语音增强算法通常假设声源是固定的,这与现实不符,限制了它们在实际场景中的性能。本文聚焦于为动态环境设计的基于注意力的空间滤波技术。具体地,我们研究了线性和非线性注意力方法在估计时变空间协方差矩阵以设计滤波器时的应用。我们还研究了通过注意力方法直接估计空间滤波器,而无需明确估计空间统计数据。使用 WSJ0 中的干净语音片段模拟在混响环境中移动发声者的语音信号生成实验数据集,其中混合了 CHiME-3 中的多通道真实噪声。评估结果表明,基于注意力的方法在静态和动态声音环境中均表现出鲁棒性,并始终优于传统的空间滤波方法。
Dec, 2023
本文提出了一种使用神经网络在人机交互中同时检测和定位多个声源的方法,并采用基于概率的编码以实现对任意数量声源的检测;此外,文章探讨了基于子带交叉相关信息的特征及三种不同基于不同动机的网络架构,实验表明该方法优于传统的空间谱法。
Nov, 2017
本文研究了如何在没有足够的先验信息的情况下对反射混响录音环境的盲信号分离进行建模,提出了四种特定的协方差模型,并提出了一系列的迭代 EM 算法来估计每个模型的参数,并提出了合适的程序来初始化参数并根据它们的 DOA 在所有频率桶中对估计的源的顺序进行对齐。实验结果表明了所提方法的有效性。
Dec, 2009
挑战性且相关的问题是在信号受限环境中实现非直视定位。本研究利用物理基础声波传播模拟和机器学习方法,在虚拟环境中定位声源到具体位置,以克服数据不足的问题,特别是在事后定位中。通过音频变换器谱图方法,我们达到了 0.786 ± 0.0136 的 F1 得分。
Apr, 2024
我们描述了一种从声音传播的基本原理来估计混响环境中声音方向的新方法。该方法利用了观察到的声场经声波分解后的时延和方向性分量的能量的信噪比自适应特征,在嘈杂和混响的条件下估计视线方向。通过在不同麦克风阵列配置和各种使用场景下的真实数据验证了该方法的有效性。
Jun, 2024
本文提出了一种新颖的室内声源定位方法,使用麦克风阵列并基于卷积神经网络(CNN)进行,该方法采用原始音频信号作为输入信息直接估计声源的三维位置,避免了手工制作音频特征。通过使用半合成数据作为训练策略并在实际数据上进行微调,该方法能够显著改善基于 ${SRP-PHAT}$ 策略的现有定位方法,并且展现出更好的对抗不同说话者性别和不同窗口大小的性能。
Jul, 2018