移动设备上的流式关键词识别

May, 2020

Streaming keyword spotting on mobile devices

Oleg Rybakov, Natasha Kononenko, Niranjan Subrahmanya, Mirko Visontai, Stella Laurenzo

TL;DR本文研究了关键词检测模型在流媒体和非流媒体模式下在移动手机上的延迟和准确性，并通过设计了一个基于 Tensorflow/Keras 的库自动将非流媒体模型转换为流媒体模型，从而减少了手动模型重写的工作量。作者使用该库对多个关键词检测模型在流和非流媒体模式下进行了基准测试，并展示了延迟和准确性之间不同的权衡。作者还探讨了使用多头注意力的新型 KWS 模型，在 Google 语音命令数据集 V2 上将分类误差降低了 10%。最后，作者开源了流媒体库和所有实验的代码。

Abstract

In this work we explore the latency and accuracy of keyword spotting (KWS) models in streaming and non-streaming modes on mobile phones. NN model conversion from non-→

keyword spotting mobile phones streaming mode tensorflow/keras multi-head attention

发现论文，激发创造

移动设备实时关键词检测的时间卷积

本文提出了一种面向移动设备的实时关键词检测方法，使用了基于时间卷积和紧凑 ResNet 架构，实现了高精度和低时延，并在 Google 语音指令数据集上取得了超过 385 倍的加速，且发布了基于移动设备的端到端模型训练和评估方案。

Apr, 2019

快速关键词检测的稀疏二值化

基于稀疏输入表示的关键词检测模型在效率上比之前的最先进边缘设备兼容模型快四倍，且具有更好的准确性，同时在嘈杂环境中更加稳定。

Jun, 2024

基于条件的在线关键词检测学习

本研究探讨了一种简单而有效的在线持续学习方法，旨在通过随着新数据的不断出现在设备上通过随机梯度下降来更新关键词检测器。通过对不同情境下的动态音频流进行实验，该方法将性能提高了 34％。此外，实验表明，与一个朴素的在线学习实现相比，基于对训练分布中的小 hold-out 集的表现条件模型更新可以缓解灾难性遗忘。

May, 2023

关键词检索的延迟控制

论文提出了一种控制关键词检测模型延迟的新方法，通过一个参数可以平衡检测延迟和准确性，并且在与现有方法对比时表现更好，可以在一定的延迟目标下，显著地提高虚警率。

Jun, 2022

利用时延神经网络进行高效的关键词检测

本文提出了一种利用两阶段时延神经网络进行实时关键词识别的新方法。该模型使用迁移学习进行训练，并在谷歌语音命令数据集和自行开发的关键字识别任务上进行了评估。与以往技术相比，本方法在干净和嘈杂的环境中均显著改善了误接受和误拒绝率，并采用了各种技术来减少计算。此外，与最近发表的研究相比，本文所提出的系统在音频的每秒乘法计算上提供了高达 89％的节省。

Jul, 2018

使用 Sinc 卷积在原始音频数据上进行小型关键词检测

本论文提出了一种新的端到端体系结构，并使用参数化 Sinc 卷积直接从原始音频中提取谱特征，实现了关键词的实时分类，其准确度高达 96.4%，序数为 62k。

Nov, 2019

基于微控制器的关键词识别技术

本研究旨在针对资源受限的微控制器上运行的关键词检测（Keyword spotting，KWS）应用，对神经网络架构进行评估和探索。我们训练了各种已经在文献中发表的用于关键词检测的神经网络架构，比较了它们的准确性和存储器 / 计算要求。我们表明，我们可以优化这些神经网络架构来适应微控制器的存储器和计算限制，而不会牺牲准确性。此外，我们进一步探索了深度可分离卷积神经网络（DS-CNN），并将其与其他神经网络架构进行了比较。DS-CNN 实现了 95.4％的准确性，比具有类似参数数量的 DNN 模型高出约 10％。

Nov, 2017

基于注意力机制的端到端小尺寸关键词检测模型

本文介绍一种基于注意力机制和神经网络的小尺寸关键词检索方法，在 RNN 编码器和注意力机制的帮助下，以线性变换和 softmax 函数为基础，通过实验验证，与当前最新的深层学习关键词检索方法相比，本文提出的方法在准确率方面有较大提高，同时模型参数也更少。

Mar, 2018

低资源设备上的关键词检测中的在线连续学习通过高阶时序统计的池化

嵌入式设备上的关键词检测模型需要快速适应新用户定义的词汇，同时不会遗忘之前的词汇。为此，我们提出了一种新的方法 ——Temporal Aware Pooling (TAP)，用于构建丰富的特征空间，通过计算预先训练主干架构提取的语音特征的高阶矩。我们的方法，TAP-SLDA，在实验分析中在多个设置、主干架构和基准测试中表现优异，在 GSC 数据集上相对平均增益达到 11.3%。

Jul, 2023

野外视觉语音识别零样本关键词检测

本论文针对实际应用中未被训练过的词语进行视觉关键词检测的问题，并使用端到端的多层神经网络架构，使用语音图形编码器解决了此问题，该模型在 LRS2 数据集上取得了非常有前途的结果。

Jul, 2018