混响环境下多个移动说话者的在线定位和跟踪

Sep, 2018

混响环境下多个移动说话者的在线定位和跟踪

Online Localization and Tracking of Multiple Moving Speakers in Reverberant Environments

Xiaofei Li, Yutong Ban, Laurent Girin, Xavier Alameda-Pineda, Radu Horaud

TL;DR本文提出了一种基于 DP-RTF 和 Bayesian 框架的在线本地化和追踪多个移动说话人的方法，并对其进行了两项真实环境中的数据集评估。

Abstract

We address the problem of online localization and tracking of multiple moving speakers in reverberant environments. The paper has the following contributions. We use the direct-path relative transfer function (dp-rtf

online localization dp-rtf moving speakers multiple speaker tracking bayesian framework

发现论文，激发创造

使用波束成形和粒子滤波的同时移动声源的鲁棒定位和跟踪

本文提出了一种使用八个麦克风阵列实现鲁棒声源定位和跟踪的方法，可在 7 米范围内实时定位和跟踪多种类型的移动声源，从而使移动机器人能够在现实环境中更自然地与人们交互。

Feb, 2016

多音源二维定位学习

本文提出了基于深度学习的多声源定位算法，使用多个麦克风阵列找到封闭环境中多个声源的二维笛卡尔坐标，通过编码 - 解码结构和两个改进措施实现任务，并提出了两种新的定位表示方法，学习了新指标以实现分辨率基础上的多源关联和对比不同方法的评估。作者对合成和真实数据进行了测试，结果表明本方法改进了这一问题的基线方法。

Dec, 2020

用于多说话者音视频跟踪的变分贝叶斯推断

本文提出了一种基于视听信息融合技术框架的多说话人跟踪系统，利用可变因素推断方法近似求解了连续和离散潜变量的后验联合分布，实现了跟踪对象的平滑轨迹估计和说话状态的判断。实验结果表明该方法在非正式会议中表现出较好的性能。

Sep, 2018

实时的主动说话者检测系统集成了音频 - 视觉信号和空间查询机制

在商用设备上部署的低功耗边缘计算优化的实时因果神经网络活动说话人检测系统，通过来自麦克风阵列和 360 度摄像机的数据驱动虚拟电影摄影模块；与以往的研究不同，我们研究了网络在计算预算耗尽时的错误率，并发现它表现出优雅的降级，即使在此情况下系统仍能正常运行；与传统的声源角估计方法不同，我们的网络利用检测到的头部位置学习查询可用的声学数据；我们在一个现实的会议数据集上训练和评估我们的算法，该数据集包含达到 14 个与会者的同一会议、语音重叠和其他具有挑战性的场景。

Sep, 2023

基于注意力的移动声源场景下的多通道语音增强

当前的多通道语音增强算法通常假设声源是固定的，这与现实不符，限制了它们在实际场景中的性能。本文聚焦于为动态环境设计的基于注意力的空间滤波技术。具体地，我们研究了线性和非线性注意力方法在估计时变空间协方差矩阵以设计滤波器时的应用。我们还研究了通过注意力方法直接估计空间滤波器，而无需明确估计空间统计数据。使用 WSJ0 中的干净语音片段模拟在混响环境中移动发声者的语音信号生成实验数据集，其中混合了 CHiME-3 中的多通道真实噪声。评估结果表明，基于注意力的方法在静态和动态声音环境中均表现出鲁棒性，并始终优于传统的空间滤波方法。

Dec, 2023

深度神经网络用于多说话者检测和定位

本文提出了一种使用神经网络在人机交互中同时检测和定位多个声源的方法，并采用基于概率的编码以实现对任意数量声源的检测；此外，文章探讨了基于子带交叉相关信息的特征及三种不同基于不同动机的网络架构，实验表明该方法优于传统的空间谱法。

Nov, 2017

使用全秩空间协方差模型进行欠定混响音源分离

本文研究了如何在没有足够的先验信息的情况下对反射混响录音环境的盲信号分离进行建模，提出了四种特定的协方差模型，并提出了一系列的迭代 EM 算法来估计每个模型的参数，并提出了合适的程序来初始化参数并根据它们的 DOA 在所有频率桶中对估计的源的顺序进行对齐。实验结果表明了所提方法的有效性。

Dec, 2009

虚拟环境中的声源定位的音频模拟

挑战性且相关的问题是在信号受限环境中实现非直视定位。本研究利用物理基础声波传播模拟和机器学习方法，在虚拟环境中定位声源到具体位置，以克服数据不足的问题，特别是在事后定位中。通过音频变换器谱图方法，我们达到了 0.786 ± 0.0136 的 F1 得分。

Apr, 2024

混响噪声环境中声音方向的极大似然估计

我们描述了一种从声音传播的基本原理来估计混响环境中声音方向的新方法。该方法利用了观察到的声场经声波分解后的时延和方向性分量的能量的信噪比自适应特征，在嘈杂和混响的条件下估计视线方向。通过在不同麦克风阵列配置和各种使用场景下的真实数据验证了该方法的有效性。

Jun, 2024

基于深度学习的端到端声学定位：从音频信号到源位置坐标

本文提出了一种新颖的室内声源定位方法，使用麦克风阵列并基于卷积神经网络（CNN）进行，该方法采用原始音频信号作为输入信息直接估计声源的三维位置，避免了手工制作音频特征。通过使用半合成数据作为训练策略并在实际数据上进行微调，该方法能够显著改善基于 ${SRP-PHAT}$ 策略的现有定位方法，并且展现出更好的对抗不同说话者性别和不同窗口大小的性能。

Jul, 2018