深度口语关键词检测：概述

Nov, 2021

Deep Spoken Keyword Spotting: An Overview

Iván López-Espejo, Zheng-Hua Tan, John Hansen, Jesper Jensen

TL;DR本文综述了深度口语识别应用技术，包括深度学习、语音识别、音视频识别等方向，旨在为相关从业者和研究人员提供指导和帮助。

Abstract

spoken keyword spotting (KWS) deals with the identification of keywords in audio streams and has become a fast-growing technology thanks to the paradigm shift introduced by deep learning a few years ago. This has

spoken keyword spotting deep learning speech recognition audio-visual kws performance improvement

发现论文，激发创造

野外视觉语音识别零样本关键词检测

本论文针对实际应用中未被训练过的词语进行视觉关键词检测的问题，并使用端到端的多层神经网络架构，使用语音图形编码器解决了此问题，该模型在 LRS2 数据集上取得了非常有前途的结果。

Jul, 2018

如何教会关键词探测器在有限的示例下发现新关键词

KeySEM 是一种基于语音嵌入的关键词识别模型，可用于个性化关键词识别，并能够在有限的示例中高效地学习新关键词，提高关键词识别的性能，这种方法适用于需要在设备上进行学习和自定义的场景。

Jun, 2021

观察唤醒词：视听关键词检测

本研究提出一种名为 KWS-Net 的卷积神经网络结构，通过序列匹配和模式检测技术，从视觉角度自动检测并确定在何时，是否有包含关键词的口型出现，在无音频或有清晰 / 嘈杂语音的情况下，性能优于现有的同类方法，还在跨语言处理上实现了良好的表现。

Sep, 2020

快速关键词检测的稀疏二值化

基于稀疏输入表示的关键词检测模型在效率上比之前的最先进边缘设备兼容模型快四倍，且具有更好的准确性，同时在嘈杂环境中更加稳定。

Jun, 2024

基于微控制器的关键词识别技术

本研究旨在针对资源受限的微控制器上运行的关键词检测（Keyword spotting，KWS）应用，对神经网络架构进行评估和探索。我们训练了各种已经在文献中发表的用于关键词检测的神经网络架构，比较了它们的准确性和存储器 / 计算要求。我们表明，我们可以优化这些神经网络架构来适应微控制器的存储器和计算限制，而不会牺牲准确性。此外，我们进一步探索了深度可分离卷积神经网络（DS-CNN），并将其与其他神经网络架构进行了比较。DS-CNN 实现了 95.4％的准确性，比具有类似参数数量的 DNN 模型高出约 10％。

Nov, 2017

MM-KWS: 多模态用户定义多语言关键词检测

提出了 MM-KWS，一种新颖的用户定义关键词识别方法，利用文本和语音模板的多模态注册。通过从文本和语音中提取音素、文本和语音嵌入，将这些嵌入与查询语音嵌入进行比较，以检测目标关键词。为了确保 MM-KWS 在多种语言环境下的适用性，利用了包含多个多语言预训练模型的特征提取器。此外，还整合了高级数据增强工具，以提高 MM-KWS 在区分混淆单词方面的性能。在 LibriPhrase 和 WenetPhrase 数据集上的实验证明，MM-KWS 明显优于之前的方法。

Jun, 2024

使用 Sinc 卷积在原始音频数据上进行小型关键词检测

本论文提出了一种新的端到端体系结构，并使用参数化 Sinc 卷积直接从原始音频中提取谱特征，实现了关键词的实时分类，其准确度高达 96.4%，序数为 62k。

Nov, 2019

自适应实例正则化的开放词汇关键词检测

本研究提出了一种名为 AdaKWS 的新型关键词检测方法，通过训练一个文本编码器输出与关键词相关的归一化参数，从而用于处理听觉输入，并在多语言基准测试和低资源语言上展开全面评估，取得了显著的性能改进。

Sep, 2023

基于语音增强的无监督学习关键词检测

本文研究了一种基于语音增强的无监督学习方法来解决关键词检测任务，提出了一种 CNN-Attention 模型来处理关键词检测任务，并通过两种语音增强方法来提高模型的稳健性和分类效果，实验表明，这种增强式的无监督学习方法能够进一步提高关键词检测的准确率。

May, 2022

AraSpot: 阿拉伯语口语指令识别

本文介绍了使用不同的在线数据增强和引入 ConformerGRU 模型架构进行训练的 AraSpot 阿拉伯语关键词识别，最终通过训练文本到语音模型进行合成数据生成，取得了 99.59％的最新成果，优于以前的方法。

Mar, 2023