快速关键词检测的稀疏二值化
本研究旨在针对资源受限的微控制器上运行的关键词检测(Keyword spotting,KWS)应用,对神经网络架构进行评估和探索。我们训练了各种已经在文献中发表的用于关键词检测的神经网络架构,比较了它们的准确性和存储器 / 计算要求。我们表明,我们可以优化这些神经网络架构来适应微控制器的存储器和计算限制,而不会牺牲准确性。此外,我们进一步探索了深度可分离卷积神经网络(DS-CNN),并将其与其他神经网络架构进行了比较。DS-CNN 实现了 95.4%的准确性,比具有类似参数数量的 DNN 模型高出约 10%。
Nov, 2017
本文介绍了一种在微控制器上运行的小型模型,可用于边缘计算中的关键词检测,该模型采用卷积神经网络进行训练并针对微控制器限制中的深度学习和低延迟要求进行了简化,还评估了在微控制器上不同的修剪和量化方法对系统性能的影响。
Aug, 2022
本文提出了一种面向移动设备的实时关键词检测方法,使用了基于时间卷积和紧凑 ResNet 架构,实现了高精度和低时延,并在 Google 语音指令数据集上取得了超过 385 倍的加速,且发布了基于移动设备的端到端模型训练和评估方案。
Apr, 2019
本文提出了一种在低成本微控制器单元上实现关键词识别的能量高效方法,其中包括使用模拟 - 二进制前端和二进制神经网络实现数字预处理的替换,将数据采集和预处理所需的能量减少了 29 倍,同时在 Speech Commands 数据集上提供 1% 的精度提高和 4.3 倍的能量效率提高,并提供 2% 的精度下降以实现 71 倍的能量削减。
Jan, 2022
本文研究了关键词检测模型在流媒体和非流媒体模式下在移动手机上的延迟和准确性,并通过设计了一个基于 Tensorflow/Keras 的库自动将非流媒体模型转换为流媒体模型,从而减少了手动模型重写的工作量。作者使用该库对多个关键词检测模型在流和非流媒体模式下进行了基准测试,并展示了延迟和准确性之间不同的权衡。作者还探讨了使用多头注意力的新型 KWS 模型,在 Google 语音命令数据集 V2 上将分类误差降低了 10%。最后,作者开源了流媒体库和所有实验的代码。
May, 2020
本论文提出了一种新的端到端体系结构,并使用参数化 Sinc 卷积直接从原始音频中提取谱特征,实现了关键词的实时分类,其准确度高达 96.4%,序数为 62k。
Nov, 2019
本文探讨了如何利用自监督对比学习和预训练模型来进行低资源关键词检测中的表征学习,通过构建局部 - 全局对比同构网络和利用预训练 Wav2Vec 2.0 模型,该小型模型可以利用未标记的数据进行预训练,实验结果表明在小的标记数据集的情况下,自我训练的 WVC 模块和自监督的 LGCSiam 模块可以显著提高准确性。
Mar, 2023
本论文针对实际应用中未被训练过的词语进行视觉关键词检测的问题,并使用端到端的多层神经网络架构,使用语音图形编码器解决了此问题,该模型在 LRS2 数据集上取得了非常有前途的结果。
Jul, 2018