移动设备实时关键词检测的时间卷积
本论文提出了一种新的端到端体系结构,并使用参数化 Sinc 卷积直接从原始音频中提取谱特征,实现了关键词的实时分类,其准确度高达 96.4%,序数为 62k。
Nov, 2019
本文研究了关键词检测模型在流媒体和非流媒体模式下在移动手机上的延迟和准确性,并通过设计了一个基于 Tensorflow/Keras 的库自动将非流媒体模型转换为流媒体模型,从而减少了手动模型重写的工作量。作者使用该库对多个关键词检测模型在流和非流媒体模式下进行了基准测试,并展示了延迟和准确性之间不同的权衡。作者还探讨了使用多头注意力的新型 KWS 模型,在 Google 语音命令数据集 V2 上将分类误差降低了 10%。最后,作者开源了流媒体库和所有实验的代码。
May, 2020
本研究旨在针对资源受限的微控制器上运行的关键词检测(Keyword spotting,KWS)应用,对神经网络架构进行评估和探索。我们训练了各种已经在文献中发表的用于关键词检测的神经网络架构,比较了它们的准确性和存储器 / 计算要求。我们表明,我们可以优化这些神经网络架构来适应微控制器的存储器和计算限制,而不会牺牲准确性。此外,我们进一步探索了深度可分离卷积神经网络(DS-CNN),并将其与其他神经网络架构进行了比较。DS-CNN 实现了 95.4%的准确性,比具有类似参数数量的 DNN 模型高出约 10%。
Nov, 2017
通过利用脉冲神经网络的能效优势,我们提出了一种端到端轻量级的关键词识别模型,其中包括全局 - 局部脉冲卷积模块和瓶颈 - 脉冲增强模块,通过精心设计的特征提取方法,实现了更稀疏、更能源高效且性能更好的语音特征提取,进一步通过瓶颈 - 脉冲增强模块处理信号以实现更高的准确性和更少的参数。在 Google 语音命令数据集(V1 和 V2)上进行了大量实验,结果表明我们的方法在脉冲神经网络关键词识别模型中以更少的参数实现了竞争性能。
Jun, 2024
本文提出了一种利用两阶段时延神经网络进行实时关键词识别的新方法。该模型使用迁移学习进行训练,并在谷歌语音命令数据集和自行开发的关键字识别任务上进行了评估。与以往技术相比,本方法在干净和嘈杂的环境中均显著改善了误接受和误拒绝率,并采用了各种技术来减少计算。此外,与最近发表的研究相比,本文所提出的系统在音频的每秒乘法计算上提供了高达 89%的节省。
Jul, 2018
本文利用神经架构搜索来搜索卷积神经网络模型,以提高基于音频信号的关键词识别性能,同时保持合理的内存占用。通过不同 iable Architecture Search 技术搜索预定义细胞空间中的操作符和它们之间的连接,然后在深度和宽度上扩展发现的单元来实现具有竞争力的性能,最终在 Google 的语音命令数据集上实现 97% 的最新准确性。
Sep, 2020
本文探讨了利用端到端无状态时间建模来进行小尺寸关键词检测的应用,提出了一种新的模型,该模型受到了序列建模领域内扩张卷积的启发,通过增加门控激活和残差连接来训练更深层次的架构。实验结果表明,该模型优于使用 LSTM 单元的循环神经网络,具有更高的准确性和更低的虚警率。
Nov, 2018
本文介绍了一种在微控制器上运行的小型模型,可用于边缘计算中的关键词检测,该模型采用卷积神经网络进行训练并针对微控制器限制中的深度学习和低延迟要求进行了简化,还评估了在微控制器上不同的修剪和量化方法对系统性能的影响。
Aug, 2022