基于轻量级神经网络的实时语音活动检测
本文提出了一种去噪深度神经网络 (DDNN) 声活检测 (VAD) 方法,通过无监督预训练的方式提取特征并通过监督学习修正,实验结果表明该方法优于基于深度置信网络 (DBN) 的 VAD 并且在深度层次上具有明显优势。
Mar, 2013
我们提出了一种基于说话人验证的语音活动检测框架,实现了无标签训练方法并使用三元损失来适应 SV 中最具信息的声学特征。结果表明,相对于传统方案,该框架在混合说话人的条件下明显提高了等误差率,并揭示了人类判断中不同语音部分的重要性。
May, 2023
对个性化声活性检测(PVAD)系统进行了比较分析,评估其在真实世界中的有效性,并通过包括帧级误差率、话语级错误率、检测延迟和准确性以及用户级分析在内的各种性能指标提供全面的评估方法,从而深入探究各种 PVAD 变体的优势和局限性。
Jun, 2024
MarbleNet 是一个端到端的神经网络,用于语音活动检测,并通过 1D 时域 - 频域可分离卷积、Batch Normalization 等结构,在参数成本较小的情况下,实现了与现有最先进 VAD 模型相当的性能。
Oct, 2020
本文利用音频监督视频中活跃讲话者检测的学习,通过声音活动检测 (VAD) 以弱监督的方式指导基于视觉的分类器学习。使用时空特征进行分类,学习人特定的模型以及在线适应性的改进,利用时间连续性克服了缺乏干净训练数据的问题。通过跨模态学习,不需要监督,将知识从一种模式传递到另一种模式,建立了自学习活跃讲话者检测系统。
Mar, 2016
提出一种新的 TS-VAD 方法,通过直接预测每个时间帧上每个演讲者的活动来解决重叠说话问题,并使用 i-vectors 作为输入,并扩展到多麦克风情况,并研究了预测演讲者活动概率的后处理策略。在 CHiME6 数据上的实验证明,TS-VAD 取得了优于基于 x-vector 的基准系统 30% 以上的 DER 绝对值的最新结果。
May, 2020
在商用设备上部署的低功耗边缘计算优化的实时因果神经网络活动说话人检测系统,通过来自麦克风阵列和 360 度摄像机的数据驱动虚拟电影摄影模块;与以往的研究不同,我们研究了网络在计算预算耗尽时的错误率,并发现它表现出优雅的降级,即使在此情况下系统仍能正常运行;与传统的声源角估计方法不同,我们的网络利用检测到的头部位置学习查询可用的声学数据;我们在一个现实的会议数据集上训练和评估我们的算法,该数据集包含达到 14 个与会者的同一会议、语音重叠和其他具有挑战性的场景。
Sep, 2023
本研究提出了一种使用双模态循环神经网络(BRNN)的音视频系统来实现语音活动检测(SAD),它可以从原始数据中直接学习音频和视觉特征,提高在嘈杂环境下的鲁棒性,结果表明该方法在实际场景中的效果比只使用深度神经网络(DNN)实现的语音检测系统提高了 1.2%,在嘈杂环境下使用平板电脑传感器评估的 F1 评分为 92.7%,仅比理想条件下高清摄像机和近距离话筒获取干净语音时的性能低 1.0%。
Sep, 2018
提出了一种轻量级的主动说话人检测框架,通过减少输入候选信息、分离 2D 和 3D 卷积进行音视频特征提取、并应用门控循环单元(GRU)进行跨模态建模,可以在计算、资源消耗上比现有方法表现更优。
Mar, 2023
提出了一种超轻量级的差分 DSP (DDSP) vocoder,该 vocoder 使用了一个经过联合优化的声学模型和 DSP vocoder,学习过程中不需要提取声道的光谱特征,实现了与神经 vocoder 相当的音频质量,同时作为一个 DSP vocoder 非常高效。在 2GHz 的 Intel Xeon CPU 上单线程运行时,无需任何硬件特定优化,C++ 实现的 FLOPS 达到 15 MFLOPS,相对于 MB-MelGAN 的 FLOPS,高出 340 倍,仅需 0.003 的 vocoder-only RTF 和 0.044 的总 RTF。
Jan, 2024