无需注意力的关键词检测
本研究旨在将 Transformer 架构应用于关键词检测中,引入了全自注意力架构,即 Keyword Transformer (KWT),其不需要任何预训练或额外数据即可超越多项任务的现有表现,并在几种复杂模型中表现最好。通过在 Google 语音命令数据集上的表现,证明了该模型的优越性。
Apr, 2021
探索使用语音识别机器学习和深度学习技术进行关键词识别的重要任务,并实现了将原始波形转换为 Mel 频率倒谱系数作为模型输入的特征工程。通过尝试使用多种算法,包括混合高斯隐马尔科夫模型、卷积神经网络以及变种的循环神经网络,如长短时记忆和注意力机制,我们的实验表明带有双向长短时记忆和注意力机制的循环神经网络可以达到 93.9%的准确率。
Dec, 2023
本研究提出 Transpotter 模型,使用全面的跨模态注意力机制在视觉和语音流之间进行交互,成功实现静默视频序列中的语音关键词检测,并且在多项测试中,优于当前视觉关键词检测和唇语识别模型,并具备较强的嘴型单词分离的能力。
Oct, 2021
本文介绍一种基于注意力机制和神经网络的小尺寸关键词检索方法,在 RNN 编码器和注意力机制的帮助下,以线性变换和 softmax 函数为基础,通过实验验证,与当前最新的深层学习关键词检索方法相比,本文提出的方法在准确率方面有较大提高,同时模型参数也更少。
Mar, 2018
本文提出了一种基于 MLP 的简单网络架构 gMLP,与 Transformer 一样,在关键的自然语言处理和计算机视觉应用中表现不亚于 Transformer。同时,作者进行比较表明,自注意力(self-attention)不是视觉 Transformer 的关键,因为 gMLP 可以实现相同的准确性。}
May, 2021
本文提出了一种基于 MLPMixer 的纯 MLP 神经网络模型,用于识别开放词汇下的关键字,该模型在 Hey-Snips 数据集和内部数据集中都取得了比传统基于循环神经网络和卷积神经网络模型更好的性能,并拥有更少的参数和 MACs。
Jun, 2022
本文探讨了利用端到端无状态时间建模来进行小尺寸关键词检测的应用,提出了一种新的模型,该模型受到了序列建模领域内扩张卷积的启发,通过增加门控激活和残差连接来训练更深层次的架构。实验结果表明,该模型优于使用 LSTM 单元的循环神经网络,具有更高的准确性和更低的虚警率。
Nov, 2018
本文研究使用合成语音数据为小型的口语术语检测模型训练提取有用特征的预训练语音嵌入模型,相较于在 500 个真实示例上训练模型,只使用合成语音即可达到同等精度。
Jan, 2020
在自然语言处理中,通过将共指信息作为辅助监督注入到目前现有的预训练模型中,能够提升模型在需要进行复杂和长距离推理的任务中的表现,从而超过目前最大的 GPT-2 模型,同时仅含有一小部分的参数。
Nov, 2019