低功耗边缘微控制器上的关键词识别系统及修剪和量化方法的评估

Aug, 2022

低功耗边缘微控制器上的关键词识别系统及修剪和量化方法的评估

Keyword Spotting System and Evaluation of Pruning and Quantization Methods on Low-power Edge Microcontrollers

Jingyi Wang, Shengchen Li

TL;DR本文介绍了一种在微控制器上运行的小型模型，可用于边缘计算中的关键词检测，该模型采用卷积神经网络进行训练并针对微控制器限制中的深度学习和低延迟要求进行了简化，还评估了在微控制器上不同的修剪和量化方法对系统性能的影响。

Abstract

keyword spotting (KWS) is beneficial for voice-based user interactions with low-power devices at the edge. The edge devices are usually always-on, so edge computing brings bandwidth savings and privacy protection. The devices typically have limited memory spaces, computational performa

keyword spotting edge computing deep learning microcontrollers quantization

发现论文，激发创造

基于微控制器的关键词识别技术

本研究旨在针对资源受限的微控制器上运行的关键词检测（Keyword spotting，KWS）应用，对神经网络架构进行评估和探索。我们训练了各种已经在文献中发表的用于关键词检测的神经网络架构，比较了它们的准确性和存储器 / 计算要求。我们表明，我们可以优化这些神经网络架构来适应微控制器的存储器和计算限制，而不会牺牲准确性。此外，我们进一步探索了深度可分离卷积神经网络（DS-CNN），并将其与其他神经网络架构进行了比较。DS-CNN 实现了 95.4％的准确性，比具有类似参数数量的 DNN 模型高出约 10％。

Nov, 2017

基于 MCU 的亚毫瓦级关键词识别：模拟二进制特征提取和二进制神经网络

本文提出了一种在低成本微控制器单元上实现关键词识别的能量高效方法，其中包括使用模拟 - 二进制前端和二进制神经网络实现数字预处理的替换，将数据采集和预处理所需的能量减少了 29 倍，同时在 Speech Commands 数据集上提供 1% 的精度提高和 4.3 倍的能量效率提高，并提供 2% 的精度下降以实现 71 倍的能量削减。

Jan, 2022

快速关键词检测的稀疏二值化

基于稀疏输入表示的关键词检测模型在效率上比之前的最先进边缘设备兼容模型快四倍，且具有更好的准确性，同时在嘈杂环境中更加稳定。

Jun, 2024

使用 Sinc 卷积在原始音频数据上进行小型关键词检测

本论文提出了一种新的端到端体系结构，并使用参数化 Sinc 卷积直接从原始音频中提取谱特征，实现了关键词的实时分类，其准确度高达 96.4%，序数为 62k。

Nov, 2019

移动设备实时关键词检测的时间卷积

本文提出了一种面向移动设备的实时关键词检测方法，使用了基于时间卷积和紧凑 ResNet 架构，实现了高精度和低时延，并在 Google 语音指令数据集上取得了超过 385 倍的加速，且发布了基于移动设备的端到端模型训练和评估方案。

Apr, 2019

一种 65 纳米 36 纳朱 / 决策生物启发的时间稀疏感知数字关键字检测 IC，采用 0.6 伏近门限 SRAM

这篇论文介绍了一种基于时间稀疏性的细粒度关键词检测技术，它利用输入帧的特征向量和网络隐藏状态之间的时间相似性，消除了不必要的操作和内存访问。该技术采用了生物启发式的 Delta 门控循环神经网络（ΔRNN）分类器，在 Google 语音指令数据集（GSCD）上实现了 90.5% 的检测准确率和 36nJ / 决策的能量消耗。在 87% 的时间稀疏率下，推理的计算延迟和能量消耗分别减少了 2.4 倍和 3.4 倍。该设计占据了 0.78mm² 的面积，还包括两个附加模块，其中一个是 0.084mm² 的紧凑型基于无限脉冲响应（IIR）的带通滤波器（BPF）音频特征提取器（FEx），另一个是 24kB、0.6V 的近阈值权重 SRAM，其读取功耗比标准 SRAM 低 6.6 倍。

May, 2024

ED-sKWS: 早期决策脉冲神经网络的快速、能效高的关键词检测

该研究介绍了一种基于脉冲神经网络的关键词检测模型 ED-sKWS，该模型引入了一种早期决策机制，能够在语音结束前停止语音处理并输出结果。此外，该研究还引入了一种累积时间损失 CT，可提高预测精度。实验证明，相比没有早期决策机制的脉冲神经网络模型，ED-sKWS 在 61% 时间步长和 52% 能量消耗方面具有竞争力，保证了快速响应和能量效率。

Jun, 2024

探索用于小尺寸关键词检测的表示学习

本文探讨了如何利用自监督对比学习和预训练模型来进行低资源关键词检测中的表征学习，通过构建局部 - 全局对比同构网络和利用预训练 Wav2Vec 2.0 模型，该小型模型可以利用未标记的数据进行预训练，实验结果表明在小的标记数据集的情况下，自我训练的 WVC 模块和自监督的 LGCSiam 模块可以显著提高准确性。

Mar, 2023

野外视觉语音识别零样本关键词检测

本论文针对实际应用中未被训练过的词语进行视觉关键词检测的问题，并使用端到端的多层神经网络架构，使用语音图形编码器解决了此问题，该模型在 LRS2 数据集上取得了非常有前途的结果。

Jul, 2018

基于固定点量化感知训练的设备端关键词检测

本研究旨在提出一种新的 FXP 卷积关键词检测模型的训练方法，结合了两种量化感知训练技术 - 压缩权重分布和模型参数的绝对余弦正则化，同时还提出了针对瞬变变量的 QAT 技术，通过实验结果表明我们可以在不降低准确性的情况下将模型精度降低至 4 位，并且在推断阶段 FXP-QAT 消除了 Q 格式规范化并可以使用低比特累加器，同时利用最大内核 SIMD 减少用户感知延迟，降低了 68% 的执行时间。

Mar, 2023