PickNet: 适用于 Ad Hoc 麦克风阵列的实时通道选择

Jan, 2022

PickNet: 适用于 Ad Hoc 麦克风阵列的实时通道选择

PickNet: Real-Time Channel Selection for Ad Hoc Microphone Arrays

PDF

Takuya Yoshioka, Xiaofei Wang, Dongmei Wang

TL;DRPickNet 是一种神经网络模型，用于实时选择移动设备麦克风阵列中空闲的麦克风，以提高语音识别时的准确性，并在实验中获得了显著的词错误率降低。

Abstract

This paper proposes picknet, a neural network model for real-time channel selection for an ad hoc →

picknet neural network real-time microphone array speech recognition

发现论文，激发创造

实时的主动说话者检测系统集成了音频 - 视觉信号和空间查询机制

在商用设备上部署的低功耗边缘计算优化的实时因果神经网络活动说话人检测系统，通过来自麦克风阵列和 360 度摄像机的数据驱动虚拟电影摄影模块；与以往的研究不同，我们研究了网络在计算预算耗尽时的错误率，并发现它表现出优雅的降级，即使在此情况下系统仍能正常运行；与传统的声源角估计方法不同，我们的网络利用检测到的头部位置学习查询可用的声学数据；我们在一个现实的会议数据集上训练和评估我们的算法，该数据集包含达到 14 个与会者的同一会议、语音重叠和其他具有挑战性的场景。

Sep, 2023

多麦克风距离语音识别中的听觉关注循环模型

本文提出了一种神经注意力网络来直接合并多通道音频以生成语音状态，无需任何关于麦克风布置的先前知识或任何用于语音增强的显式信号预处理。

Nov, 2015

端到端麦克风排列和数量不变多通道语音分离

本文提出 transform-average-concatenate (TAC) 一种简单的设计范式来进行通道置换和数量不变的多通道音频分离，并基于最近提出的端到端深度学习模型 FaSNet 来展示 TAC 如何显著提高在各种噪声和混响环境下的不同麦克风数量的音频分离任务中的性能。

Oct, 2019

PitchNet: 一种用于音高估计的全卷积神经网络

在音乐和声音处理领域中，音高提取起着关键作用。本研究介绍了 “PitchNet”，一种专为从人类歌唱声音中提取音高而量身定制的卷积神经网络，包括 a cappella 演唱。将自相关与深度学习技术融合，PitchNet 旨在优化音高检测的准确性。通过对包含合成声音、歌剧录音和时间拉伸元音的数据集进行评估，证明了其有效性。这项工作为音乐和语音环境中的音高提取铺平了道路。

Aug, 2023

FaSNet：适应性低延迟波束成形技术在多麦克风音频处理中的应用

提出了一种适用于低延迟场景的时域、基于过滤的波束成形方法 ——FaSNet，该方法可在含噪声和混响语音增强中表现出色，同时还可在 CHiME-3 数据集上通过训练基于频域目标函数的 FaSNet 模型实现与基准模型相比的相对字错误率降低 14.3%。

Sep, 2019

基于轻量级神经网络的实时语音活动检测

该研究提出了一种轻量级实时的神经网络模型 MagicNet，利用 1-D 卷积和 GRU，并且不依赖未来特征作为输入，在综合测试数据集上与两种最先进的算法进行比较，评估结果表明 MagicNet 能够在较少的参数成本下实现更好的性能和鲁棒性。

May, 2024

多通道端到端语音识别

本研究论文扩展了端到端的框架，以包含麦克风阵列信号处理以进行噪声抑制和语音增强，并能够共同优化束形成和识别架构。实验结果表明，我们的多通道端到端系统在去噪和语音增强任务上表现更好。

Mar, 2017

利用深度学习的阶段麦克风阵列进行声源定位

本研究采用了卷积神经网络作为一种高效且具有高精度的算法，通过对交叉谱矩阵的直接分析寻找声源分布，从而在高频下以很短的时间内实现与传统波束成形相同精度的声源定位。

Feb, 2018

DeepFilterNet：感知驱动的实时语音增强

本文介绍了使用 DeepFilterNet 进行实时语音增强的演示。通过利用言语生产和心理声学感知的领域知识，该模型能够匹配最先进的语音增强基准，并在单线程笔记本 CPU 上实现了实时化因子 0.19。该框架及预训练权重已在开源协议下发布。

May, 2023

具有移动音频流网络的高效低延迟语音增强

提出了适用于移动设备和计算能力受限应用的移动音频流网络 (MASnet)，用于有效的低延迟语音增强。MASnet 将连续的嘈杂帧转换为复值比率掩码，然后将其应用于相应的嘈杂帧。与类似的全卷积架构相比，MASnet 采用了深度和点卷积，大大减少了每秒融合乘累加运算次数 (FMA/s)，但牺牲了一些信噪比。

Aug, 2020