关键词检索的延迟控制
本文提出了一种面向移动设备的实时关键词检测方法,使用了基于时间卷积和紧凑 ResNet 架构,实现了高精度和低时延,并在 Google 语音指令数据集上取得了超过 385 倍的加速,且发布了基于移动设备的端到端模型训练和评估方案。
Apr, 2019
本研究针对 KeyWord Spotting 的应用场景,提出了基于 Deep Learning 和 Few-shot Learning 的开放式分类方法,并通过使用三元组损失训练编码器,实现了较高的精度和较低的未知数据虚警率。
Jun, 2023
本论文针对实际应用中未被训练过的词语进行视觉关键词检测的问题,并使用端到端的多层神经网络架构,使用语音图形编码器解决了此问题,该模型在 LRS2 数据集上取得了非常有前途的结果。
Jul, 2018
本文研究了关键词检测模型在流媒体和非流媒体模式下在移动手机上的延迟和准确性,并通过设计了一个基于 Tensorflow/Keras 的库自动将非流媒体模型转换为流媒体模型,从而减少了手动模型重写的工作量。作者使用该库对多个关键词检测模型在流和非流媒体模式下进行了基准测试,并展示了延迟和准确性之间不同的权衡。作者还探讨了使用多头注意力的新型 KWS 模型,在 Google 语音命令数据集 V2 上将分类误差降低了 10%。最后,作者开源了流媒体库和所有实验的代码。
May, 2020
本研究旨在针对资源受限的微控制器上运行的关键词检测(Keyword spotting,KWS)应用,对神经网络架构进行评估和探索。我们训练了各种已经在文献中发表的用于关键词检测的神经网络架构,比较了它们的准确性和存储器 / 计算要求。我们表明,我们可以优化这些神经网络架构来适应微控制器的存储器和计算限制,而不会牺牲准确性。此外,我们进一步探索了深度可分离卷积神经网络(DS-CNN),并将其与其他神经网络架构进行了比较。DS-CNN 实现了 95.4%的准确性,比具有类似参数数量的 DNN 模型高出约 10%。
Nov, 2017
本文提出了一种基于渐进式不间断学习策略的 PCL-KWS 框架,该框架引入了网络分离器来生成任务特定的子网络,从而实现逐步学习新关键字而不会忘记之前学习的关键字,并且该框架的关键字感知网络缩放机制可以防止模型参数增长而实现更高的性能。实验结果表明,该方法在 Google Speech Command 数据集上学习了五个新任务之后,可以达到 92.8% 的平均精度,相较于其他基线算法,取得了最新的最佳表现。
Jan, 2022
本文提出了一种利用两阶段时延神经网络进行实时关键词识别的新方法。该模型使用迁移学习进行训练,并在谷歌语音命令数据集和自行开发的关键字识别任务上进行了评估。与以往技术相比,本方法在干净和嘈杂的环境中均显著改善了误接受和误拒绝率,并采用了各种技术来减少计算。此外,与最近发表的研究相比,本文所提出的系统在音频的每秒乘法计算上提供了高达 89%的节省。
Jul, 2018
本研究探讨了一种简单而有效的在线持续学习方法,旨在通过随着新数据的不断出现在设备上通过随机梯度下降来更新关键词检测器。通过对不同情境下的动态音频流进行实验,该方法将性能提高了 34%。此外,实验表明,与一个朴素的在线学习实现相比,基于对训练分布中的小 hold-out 集的表现条件模型更新可以缓解灾难性遗忘。
May, 2023