使用有限和合成的语音数据训练关键词检测器

Jan, 2020

使用有限和合成的语音数据训练关键词检测器

Training Keyword Spotters with Limited and Synthesized Speech Data

James Lin, Kevin Kilgour, Dominik Roblek, Matthew Sharifi

TL;DR本文研究使用合成语音数据为小型的口语术语检测模型训练提取有用特征的预训练语音嵌入模型，相较于在 500 个真实示例上训练模型，只使用合成语音即可达到同等精度。

Abstract

With the rise of low power speech-enabled devices, there is a growing demand to quickly produce models for recognizing arbitrary sets of keywords. As with many machine learning tasks, one of the most challenging parts in the model creation process is obtaining a sufficient amount of tr

speech-enabled devices keyword recognition synthesized speech data speech embedding small spoken term detection models

发现论文，激发创造

如何教会关键词探测器在有限的示例下发现新关键词

KeySEM 是一种基于语音嵌入的关键词识别模型，可用于个性化关键词识别，并能够在有限的示例中高效地学习新关键词，提高关键词识别的性能，这种方法适用于需要在设备上进行学习和自定义的场景。

Jun, 2021

通过本地可学习用户讲话特征提升关键词检测

在此研究中，我们提出了一种新颖的设备内学习架构，由预训练的主干网络和学习用户语音特征的用户感知特征学习组成，用于解决无人工场景中部署时需要调整离线训练分类器以提高准确性的问题。我们通过更新用户投影来减小从 30.1% 到 24.3% 的错误率，针对 Google Speech Commands 数据集的 35 类问题中由未见过的发言人引起的领域转移。此外，我们还展示了我们提出的架构在样本和类别稀缺学习条件下的少样本学习能力。带有 23.7k 参数和每个周期的 1MFLOP 的需求，我们的系统适用于针对电池供电微控制器的 TinyML 应用。

Mar, 2024

关键字检测 -- 基于深度学习的口语指令识别

探索使用语音识别机器学习和深度学习技术进行关键词识别的重要任务，并实现了将原始波形转换为 Mel 频率倒谱系数作为模型输入的特征工程。通过尝试使用多种算法，包括混合高斯隐马尔科夫模型、卷积神经网络以及变种的循环神经网络，如长短时记忆和注意力机制，我们的实验表明带有双向长短时记忆和注意力机制的循环神经网络可以达到 93.9％的准确率。

Dec, 2023

使用原型网络进行少样本关键词识别

研究通过使用度量学习，以及选择临时和膨胀卷积等技术来解决关键词识别中的新词汇难题。同时，利用生成的数据集，可以使用少量样本准确识别新的用户自定义的关键词汇。

Jul, 2020

借助辅助数据监督提高小型足迹的少样本关键词识别

使用未标记的朗读语音数据作为辅助来源，我们提出了一个框架，通过自动注释和过滤数据来构建类似于关键词的数据集，利用多任务学习来提高模型的表示能力，从而显著提高了少样本关键词检测模型性能。

Aug, 2023

学习音频文本协同以实现开放式关键词定位

本文提出一种新颖的端到端的用户定义关键词检测方法，利用语音和文本序列之间的语言对应模式，实现音频和文本表征在共同的隐含空间中；采用基于注意力的跨模态匹配方法，训练具有单调匹配损失和关键词分类损失的模型，并利用去噪损失改善模型在嘈杂环境中的稳健性，同时引入 LibriPhrase 数据集用于高效地训练关键词检测模型；与其他单模态和跨模态基线相比，在各种评估集上取得了有竞争力的结果。

Jun, 2022

利用时延神经网络进行高效的关键词检测

本文提出了一种利用两阶段时延神经网络进行实时关键词识别的新方法。该模型使用迁移学习进行训练，并在谷歌语音命令数据集和自行开发的关键字识别任务上进行了评估。与以往技术相比，本方法在干净和嘈杂的环境中均显著改善了误接受和误拒绝率，并采用了各种技术来减少计算。此外，与最近发表的研究相比，本文所提出的系统在音频的每秒乘法计算上提供了高达 89％的节省。

Jul, 2018

快速关键词检测的稀疏二值化

基于稀疏输入表示的关键词检测模型在效率上比之前的最先进边缘设备兼容模型快四倍，且具有更好的准确性，同时在嘈杂环境中更加稳定。

Jun, 2024

从非常嘈杂和混杂的语音中识别关键词

本文提出了一种新的 Mix Training（MT）策略，用于探测嵌入在强干扰和混合语音中的低能量关键词，使用卷积神经网络（CNN）和 EfficientNet（B0/B2）架构，实验结果在 Google 语音命令数据集上表明，提出的混合训练方法高度有效，优于传统的数据增强和混合训练。

May, 2023

通过自监督预训练实现噪声鲁棒的关键词检测

使用自我监督学习（SSL）预训练算法 Data2Vec 可以提高关键词识别（KWS）模型在嘈杂环境下的鲁棒性。

Mar, 2024