Mar, 2024

通过本地可学习用户讲话特征提升关键词检测

TL;DR在此研究中,我们提出了一种新颖的设备内学习架构,由预训练的主干网络和学习用户语音特征的用户感知特征学习组成,用于解决无人工场景中部署时需要调整离线训练分类器以提高准确性的问题。我们通过更新用户投影来减小从 30.1% 到 24.3% 的错误率,针对 Google Speech Commands 数据集的 35 类问题中由未见过的发言人引起的领域转移。此外,我们还展示了我们提出的架构在样本和类别稀缺学习条件下的少样本学习能力。带有 23.7k 参数和每个周期的 1MFLOP 的需求,我们的系统适用于针对电池供电微控制器的 TinyML 应用。