无需注意力的关键词检测

ICLROct, 2021

Attention-Free Keyword Spotting

Mashrur M. Morshed, Ahmad Omar Ahsan

TL;DR本文探讨了是否自注意力在识别语音关键词方面是否真的不可替代，提出了一种高效的小型化门控多层感知机模型，证明该方法在语音关键词检测方面的性能表现强于自注意力方法且参数量更少。

Abstract

Till now, attention-based models have been used with great success in the keyword spotting problem domain. However, in light of recent advances in deep learning, the question arises whether →

attention-based models self-attention gated mlps keyword spotting efficient mlp-based models

发现论文，激发创造

关键词变换器：一种自注意力模型用于关键词检测

本研究旨在将 Transformer 架构应用于关键词检测中，引入了全自注意力架构，即 Keyword Transformer (KWT)，其不需要任何预训练或额外数据即可超越多项任务的现有表现，并在几种复杂模型中表现最好。通过在 Google 语音命令数据集上的表现，证明了该模型的优越性。

Apr, 2021

关键字检测 -- 基于深度学习的口语指令识别

探索使用语音识别机器学习和深度学习技术进行关键词识别的重要任务，并实现了将原始波形转换为 Mel 频率倒谱系数作为模型输入的特征工程。通过尝试使用多种算法，包括混合高斯隐马尔科夫模型、卷积神经网络以及变种的循环神经网络，如长短时记忆和注意力机制，我们的实验表明带有双向长短时记忆和注意力机制的循环神经网络可以达到 93.9％的准确率。

Dec, 2023

注意力视觉关键词检测

本研究提出 Transpotter 模型，使用全面的跨模态注意力机制在视觉和语音流之间进行交互，成功实现静默视频序列中的语音关键词检测，并且在多项测试中，优于当前视觉关键词检测和唇语识别模型，并具备较强的嘴型单词分离的能力。

Oct, 2021

基于注意力机制的端到端小尺寸关键词检测模型

本文介绍一种基于注意力机制和神经网络的小尺寸关键词检索方法，在 RNN 编码器和注意力机制的帮助下，以线性变换和 softmax 函数为基础，通过实验验证，与当前最新的深层学习关键词检索方法相比，本文提出的方法在准确率方面有较大提高，同时模型参数也更少。

Mar, 2018

关注多层感知器

本文提出了一种基于 MLP 的简单网络架构 gMLP，与 Transformer 一样，在关键的自然语言处理和计算机视觉应用中表现不亚于 Transformer。同时，作者进行比较表明，自注意力（self-attention）不是视觉 Transformer 的关键，因为 gMLP 可以实现相同的准确性。}

May, 2021

层次自注意力网络的主题识别

提出了一种层次模型，带有自我关注的话题识别技术，并在线性可扩展语料库上的实验证明了其在话题识别和文本分类方面的优异性能。

Apr, 2019

QbyE-MLPMixer：使用 MLPMixer 实现 Query-by-Example 开放词汇关键词检测

本文提出了一种基于 MLPMixer 的纯 MLP 神经网络模型，用于识别开放词汇下的关键字，该模型在 Hey-Snips 数据集和内部数据集中都取得了比传统基于循环神经网络和卷积神经网络模型更好的性能，并拥有更少的参数和 MACs。

Jun, 2022

使用膨胀卷积和门控技术实现高效的关键字检测

本文探讨了利用端到端无状态时间建模来进行小尺寸关键词检测的应用，提出了一种新的模型，该模型受到了序列建模领域内扩张卷积的启发，通过增加门控激活和残差连接来训练更深层次的架构。实验结果表明，该模型优于使用 LSTM 单元的循环神经网络，具有更高的准确性和更低的虚警率。

Nov, 2018

使用有限和合成的语音数据训练关键词检测器

本文研究使用合成语音数据为小型的口语术语检测模型训练提取有用特征的预训练语音嵌入模型，相较于在 500 个真实示例上训练模型，只使用合成语音即可达到同等精度。

Jan, 2020

关注实体以获得更好的文本理解

在自然语言处理中，通过将共指信息作为辅助监督注入到目前现有的预训练模型中，能够提升模型在需要进行复杂和长距离推理的任务中的表现，从而超过目前最大的 GPT-2 模型，同时仅含有一小部分的参数。

Nov, 2019