移动设备实时关键词检测的时间卷积

Apr, 2019

移动设备实时关键词检测的时间卷积

Temporal Convolution for Real-time Keyword Spotting on Mobile Devices

Seungwoo Choi, Seokjun Seo, Beomjun Shin, Hyeongmin Byun, Martin Kersner...

TL;DR本文提出了一种面向移动设备的实时关键词检测方法，使用了基于时间卷积和紧凑 ResNet 架构，实现了高精度和低时延，并在 Google 语音指令数据集上取得了超过 385 倍的加速，且发布了基于移动设备的端到端模型训练和评估方案。

Abstract

keyword spotting (KWS) plays a critical role in enabling speech-based user interactions on smart devices. Recent developments in the field of deep learning have led to wide adoption of convolutional neural networks

keyword spotting convolutional neural networks real-time kws mobile devices temporal convolution

发现论文，激发创造

使用 Sinc 卷积在原始音频数据上进行小型关键词检测

本论文提出了一种新的端到端体系结构，并使用参数化 Sinc 卷积直接从原始音频中提取谱特征，实现了关键词的实时分类，其准确度高达 96.4%，序数为 62k。

Nov, 2019

快速关键词检测的稀疏二值化

基于稀疏输入表示的关键词检测模型在效率上比之前的最先进边缘设备兼容模型快四倍，且具有更好的准确性，同时在嘈杂环境中更加稳定。

Jun, 2024

移动设备上的流式关键词识别

本文研究了关键词检测模型在流媒体和非流媒体模式下在移动手机上的延迟和准确性，并通过设计了一个基于 Tensorflow/Keras 的库自动将非流媒体模型转换为流媒体模型，从而减少了手动模型重写的工作量。作者使用该库对多个关键词检测模型在流和非流媒体模式下进行了基准测试，并展示了延迟和准确性之间不同的权衡。作者还探讨了使用多头注意力的新型 KWS 模型，在 Google 语音命令数据集 V2 上将分类误差降低了 10%。最后，作者开源了流媒体库和所有实验的代码。

May, 2020

基于微控制器的关键词识别技术

本研究旨在针对资源受限的微控制器上运行的关键词检测（Keyword spotting，KWS）应用，对神经网络架构进行评估和探索。我们训练了各种已经在文献中发表的用于关键词检测的神经网络架构，比较了它们的准确性和存储器 / 计算要求。我们表明，我们可以优化这些神经网络架构来适应微控制器的存储器和计算限制，而不会牺牲准确性。此外，我们进一步探索了深度可分离卷积神经网络（DS-CNN），并将其与其他神经网络架构进行了比较。DS-CNN 实现了 95.4％的准确性，比具有类似参数数量的 DNN 模型高出约 10％。

Nov, 2017

关键词检索的延迟控制

论文提出了一种控制关键词检测模型延迟的新方法，通过一个参数可以平衡检测延迟和准确性，并且在与现有方法对比时表现更好，可以在一定的延迟目标下，显著地提高虚警率。

Jun, 2022

全局 - 局部卷积与脉冲神经网络在能效关键词检测中的应用

通过利用脉冲神经网络的能效优势，我们提出了一种端到端轻量级的关键词识别模型，其中包括全局 - 局部脉冲卷积模块和瓶颈 - 脉冲增强模块，通过精心设计的特征提取方法，实现了更稀疏、更能源高效且性能更好的语音特征提取，进一步通过瓶颈 - 脉冲增强模块处理信号以实现更高的准确性和更少的参数。在 Google 语音命令数据集（V1 和 V2）上进行了大量实验，结果表明我们的方法在脉冲神经网络关键词识别模型中以更少的参数实现了竞争性能。

Jun, 2024

利用时延神经网络进行高效的关键词检测

本文提出了一种利用两阶段时延神经网络进行实时关键词识别的新方法。该模型使用迁移学习进行训练，并在谷歌语音命令数据集和自行开发的关键字识别任务上进行了评估。与以往技术相比，本方法在干净和嘈杂的环境中均显著改善了误接受和误拒绝率，并采用了各种技术来减少计算。此外，与最近发表的研究相比，本文所提出的系统在音频的每秒乘法计算上提供了高达 89％的节省。

Jul, 2018

基于神经网络的关键词检测架构搜索

本文利用神经架构搜索来搜索卷积神经网络模型，以提高基于音频信号的关键词识别性能，同时保持合理的内存占用。通过不同 iable Architecture Search 技术搜索预定义细胞空间中的操作符和它们之间的连接，然后在深度和宽度上扩展发现的单元来实现具有竞争力的性能，最终在 Google 的语音命令数据集上实现 97% 的最新准确性。

Sep, 2020

使用膨胀卷积和门控技术实现高效的关键字检测

本文探讨了利用端到端无状态时间建模来进行小尺寸关键词检测的应用，提出了一种新的模型，该模型受到了序列建模领域内扩张卷积的启发，通过增加门控激活和残差连接来训练更深层次的架构。实验结果表明，该模型优于使用 LSTM 单元的循环神经网络，具有更高的准确性和更低的虚警率。

Nov, 2018

低功耗边缘微控制器上的关键词识别系统及修剪和量化方法的评估

本文介绍了一种在微控制器上运行的小型模型，可用于边缘计算中的关键词检测，该模型采用卷积神经网络进行训练并针对微控制器限制中的深度学习和低延迟要求进行了简化，还评估了在微控制器上不同的修剪和量化方法对系统性能的影响。

Aug, 2022