通过本地可学习用户讲话特征提升关键词检测

Mar, 2024

通过本地可学习用户讲话特征提升关键词检测

Boosting keyword spotting through on-device learnable user speech characteristics

Cristian Cioflan, Lukas Cavigelli, Luca Benini

TL;DR在此研究中，我们提出了一种新颖的设备内学习架构，由预训练的主干网络和学习用户语音特征的用户感知特征学习组成，用于解决无人工场景中部署时需要调整离线训练分类器以提高准确性的问题。我们通过更新用户投影来减小从 30.1% 到 24.3% 的错误率，针对 Google Speech Commands 数据集的 35 类问题中由未见过的发言人引起的领域转移。此外，我们还展示了我们提出的架构在样本和类别稀缺学习条件下的少样本学习能力。带有 23.7k 参数和每个周期的 1MFLOP 的需求，我们的系统适用于针对电池供电微控制器的 TinyML 应用。

Abstract

keyword spotting systems for always-on TinyML-constrained applications require on-site tuning to boost the accuracy of offline trained classifiers when deployed in unseen inference conditions. Adapting to the speech peculiarities of target users requires many in-domain samples, often u

keyword spotting systems on-device learning speech characteristics domain shifts tinyml applications

发现论文，激发创造

低功耗极端边缘嵌入式系统上的关键词检测设备域学习

在本研究中，我们提出了一个完全基于设备的领域适应系统，相较于已经稳健的关键词识别模型，能够获得 14% 的准确度提升。我们使用少于 10 kB 的内存，仅 100 个标记的话语就能在适应复杂的语音噪声后恢复 5% 的准确度，展示了域适应在低功耗微控制器上的可行性，仅需 806 mJ 的能量，在始终开启的电池供电设备上执行时间为 14 秒。

Mar, 2024

端设备个性化语音识别模型的研究调查

本文探讨利用个人化的端到端语音识别模型在移动设备上安全训练，使用户数据和模型不离开设备和服务器，以提高数据隐私和可扩展性。实验结果表明，在设备个性化的情况下，相对词误差率降低了 63.7％，性能略有下降（18.7％）但是最终实现了更好的数据隐私保护。

Sep, 2019

使用有限和合成的语音数据训练关键词检测器

本文研究使用合成语音数据为小型的口语术语检测模型训练提取有用特征的预训练语音嵌入模型，相较于在 500 个真实示例上训练模型，只使用合成语音即可达到同等精度。

Jan, 2020

TinyML 中基于设备学习的说话人验证

介绍了一种新型的自适应 TinyML 解决方案，可用于需要在设备上学习算法的任务，如识别 Tiny Speaker Verification，并在实际的物联网设备上测试了该解决方案。

Jun, 2024

基于设备的约束自监督语音表示学习在关键词检测中的应用：知识蒸馏

提出了一种基于知识蒸馏的自监督语音表示学习（S3RL）体系结构，用于在设备上进行关键词检测任务，通过使用双视角交叉相关蒸馏和教师的码本作为学习目标，在设备资源限制内构建自监督模型，对 Alexa 关键词检测任务表现出非凡的性能。

Jul, 2023

低资源设备上的关键词检测中的在线连续学习通过高阶时序统计的池化

嵌入式设备上的关键词检测模型需要快速适应新用户定义的词汇，同时不会遗忘之前的词汇。为此，我们提出了一种新的方法 ——Temporal Aware Pooling (TAP)，用于构建丰富的特征空间，通过计算预先训练主干架构提取的语音特征的高阶矩。我们的方法，TAP-SLDA，在实验分析中在多个设置、主干架构和基准测试中表现优异，在 GSC 数据集上相对平均增益达到 11.3%。

Jul, 2023

关键字检测 -- 基于深度学习的口语指令识别

探索使用语音识别机器学习和深度学习技术进行关键词识别的重要任务，并实现了将原始波形转换为 Mel 频率倒谱系数作为模型输入的特征工程。通过尝试使用多种算法，包括混合高斯隐马尔科夫模型、卷积神经网络以及变种的循环神经网络，如长短时记忆和注意力机制，我们的实验表明带有双向长短时记忆和注意力机制的循环神经网络可以达到 93.9％的准确率。

Dec, 2023

用于设备上关键词识别系统自定义的 Few-Shot 开放集学习

本研究针对 KeyWord Spotting 的应用场景，提出了基于 Deep Learning 和 Few-shot Learning 的开放式分类方法，并通过使用三元组损失训练编码器，实现了较高的精度和较低的未知数据虚警率。

Jun, 2023

基于条件的在线关键词检测学习

本研究探讨了一种简单而有效的在线持续学习方法，旨在通过随着新数据的不断出现在设备上通过随机梯度下降来更新关键词检测器。通过对不同情境下的动态音频流进行实验，该方法将性能提高了 34％。此外，实验表明，与一个朴素的在线学习实现相比，基于对训练分布中的小 hold-out 集的表现条件模型更新可以缓解灾难性遗忘。

May, 2023

用于在线端到端语音识别系统的改进训练

提供了一种利用师生学习技术将离线的端到端语音识别模型的知识传递到在线端到端模型中的初始化策略，用以提高在线语音识别的准确性，并结合课程学习和标签平滑实现了更好的效果。在 Microsoft Cortana 的个人助手任务中，相比随机初始化基线系统，通过所提出的方法，可以使错误率相对下降了 19%。

Nov, 2017