PickNet: 适用于 Ad Hoc 麦克风阵列的实时通道选择
在商用设备上部署的低功耗边缘计算优化的实时因果神经网络活动说话人检测系统,通过来自麦克风阵列和 360 度摄像机的数据驱动虚拟电影摄影模块;与以往的研究不同,我们研究了网络在计算预算耗尽时的错误率,并发现它表现出优雅的降级,即使在此情况下系统仍能正常运行;与传统的声源角估计方法不同,我们的网络利用检测到的头部位置学习查询可用的声学数据;我们在一个现实的会议数据集上训练和评估我们的算法,该数据集包含达到 14 个与会者的同一会议、语音重叠和其他具有挑战性的场景。
Sep, 2023
本文提出 transform-average-concatenate (TAC) 一种简单的设计范式来进行通道置换和数量不变的多通道音频分离,并基于最近提出的端到端深度学习模型 FaSNet 来展示 TAC 如何显著提高在各种噪声和混响环境下的不同麦克风数量的音频分离任务中的性能。
Oct, 2019
在音乐和声音处理领域中,音高提取起着关键作用。本研究介绍了 “PitchNet”,一种专为从人类歌唱声音中提取音高而量身定制的卷积神经网络,包括 a cappella 演唱。将自相关与深度学习技术融合,PitchNet 旨在优化音高检测的准确性。通过对包含合成声音、歌剧录音和时间拉伸元音的数据集进行评估,证明了其有效性。这项工作为音乐和语音环境中的音高提取铺平了道路。
Aug, 2023
提出了一种适用于低延迟场景的时域、基于过滤的波束成形方法 ——FaSNet,该方法可在含噪声和混响语音增强中表现出色,同时还可在 CHiME-3 数据集上通过训练基于频域目标函数的 FaSNet 模型实现与基准模型相比的相对字错误率降低 14.3%。
Sep, 2019
该研究提出了一种轻量级实时的神经网络模型 MagicNet,利用 1-D 卷积和 GRU,并且不依赖未来特征作为输入,在综合测试数据集上与两种最先进的算法进行比较,评估结果表明 MagicNet 能够在较少的参数成本下实现更好的性能和鲁棒性。
May, 2024
本研究论文扩展了端到端的框架,以包含麦克风阵列信号处理以进行噪声抑制和语音增强,并能够共同优化束形成和识别架构。实验结果表明,我们的多通道端到端系统在去噪和语音增强任务上表现更好。
Mar, 2017
本研究采用了卷积神经网络作为一种高效且具有高精度的算法,通过对交叉谱矩阵的直接分析寻找声源分布,从而在高频下以很短的时间内实现与传统波束成形相同精度的声源定位。
Feb, 2018
本文介绍了使用 DeepFilterNet 进行实时语音增强的演示。通过利用言语生产和心理声学感知的领域知识,该模型能够匹配最先进的语音增强基准,并在单线程笔记本 CPU 上实现了实时化因子 0.19。该框架及预训练权重已在开源协议下发布。
May, 2023
提出了适用于移动设备和计算能力受限应用的移动音频流网络 (MASnet),用于有效的低延迟语音增强。MASnet 将连续的嘈杂帧转换为复值比率掩码,然后将其应用于相应的嘈杂帧。与类似的全卷积架构相比,MASnet 采用了深度和点卷积,大大减少了每秒融合乘累加运算次数 (FMA/s),但牺牲了一些信噪比。
Aug, 2020