- LiCo-Net: 基于线性化卷积的硬件高效关键词检测网络
本文提出了一种硬件有效的架构,Linearized Convolution Network(LiCo-Net),专门为微控制器等节能处理器单元进行关键字识别。在推理阶段使用高效的 int8 线性运算符,在训练阶段应用流式卷积以保持模型容量高 - 低功耗边缘微控制器上的关键词识别系统及修剪和量化方法的评估
本文介绍了一种在微控制器上运行的小型模型,可用于边缘计算中的关键词检测,该模型采用卷积神经网络进行训练并针对微控制器限制中的深度学习和低延迟要求进行了简化,还评估了在微控制器上不同的修剪和量化方法对系统性能的影响。
- 分布偏移下的唤醒词检测
本文提出了一种半监督学习方法,它能够克服关键词检测任务中由于训练和实际数据之间分布偏移所引起的挑战,并且能够优化卷积神经网络以提高模型准确性。
- QbyE-MLPMixer:使用 MLPMixer 实现 Query-by-Example 开放词汇关键词检测
本文提出了一种基于 MLPMixer 的纯 MLP 神经网络模型,用于识别开放词汇下的关键字,该模型在 Hey-Snips 数据集和内部数据集中都取得了比传统基于循环神经网络和卷积神经网络模型更好的性能,并拥有更少的参数和 MACs。
- 关键词检索的延迟控制
论文提出了一种控制关键词检测模型延迟的新方法,通过一个参数可以平衡检测延迟和准确性,并且在与现有方法对比时表现更好,可以在一定的延迟目标下,显著地提高虚警率。
- 基于语音增强的无监督学习关键词检测
本文研究了一种基于语音增强的无监督学习方法来解决关键词检测任务,提出了一种 CNN-Attention 模型来处理关键词检测任务,并通过两种语音增强方法来提高模型的稳健性和分类效果,实验表明,这种增强式的无监督学习方法能够进一步提高关键词检 - ACLAB/BA 分析:在保持音频隐私的同时估计关键词检测召回率提高的框架
本研究提出了一种名为 AB/BA 分析的技术,该技术可在隐私约束下,无需负样本即可使用交叉数据集进行相对召回率估计,以及在机器生成的软标签的帮助下进行半监督分析。通过实验,研究表明 AB/BA 分析可成功衡量召回率的改进和相对假阳性率的平衡 - 通过蒸馏、过滤和联合联邦 - 集中训练实现生产联邦式关键词检测
本文使用联邦学习算法在真实用户设备上训练了一种关键词检测模型,采用联合联邦 - 集中式训练补充训练缓存数据域的缺失,以及基于用户反馈信号的信心过滤策略进行联邦蒸馏学习,在离线和在线实验中均取得了显著的质量和用户体验改进。
- 通过正交化规则学习解耦合特征
为了同时提高语音任务中关键词识别和说话人验证的性能,设计了具有相同结构的两个深度网络(关键词分支和说话人验证分支),提出了一种新的解耦特征学习方法,并使用正交性约束技术,实现对谷歌语音命令数据集的最佳性能。
- Rainbow Keywords: 在线口语关键词检测的高效增量学习
该研究提出了一种名为 Rainbow Keywords 的增量学习方法,其中使用一个多样性感知的采样器从历史和新的关键词中选择出一个多样性集合,从而在边缘设备上实现新任务的增量学习,并通过数据增强和知识蒸馏技术有效地管理内存。实验结果表明, - Delta Keyword Transformer: 通过动态裁剪的多头自注意力将 Transformer 移植到边缘
该研究提出了一种动态剪枝方法,通过利用数据在不同时间点的稳定性来降低推理成本,减少了 Transformer 网络中 self-attention 操作的次数,从而在维持高准确率的同时大幅度降低了模型复杂度。
- BiFSMN: 用于关键词检测的二值神经网络
本研究提出了 BiFSMN,一种精度高、效率极高的二进制神经网络,它包括了针对一些关键信息的深度蒸馏机制、一种优化的二进制化训练方法、可以自适应提高通用性和效率的纤薄化结构和一个在 ARMv8 设备上的快速位运算核心,实现了在各种数据集上完 - 面向口语关键词检测的渐进式持续学习
本文提出了一种基于渐进式不间断学习策略的 PCL-KWS 框架,该框架引入了网络分离器来生成任务特定的子网络,从而实现逐步学习新关键字而不会忘记之前学习的关键字,并且该框架的关键字感知网络缩放机制可以防止模型参数增长而实现更高的性能。实验结 - 基于 MCU 的亚毫瓦级关键词识别:模拟二进制特征提取和二进制神经网络
本文提出了一种在低成本微控制器单元上实现关键词识别的能量高效方法,其中包括使用模拟 - 二进制前端和二进制神经网络实现数字预处理的替换,将数据采集和预处理所需的能量减少了 29 倍,同时在 Speech Commands 数据集上提供 1% - ICLR无需注意力的关键词检测
本文探讨了是否自注意力在识别语音关键词方面是否真的不可替代,提出了一种高效的小型化门控多层感知机模型,证明该方法在语音关键词检测方面的性能表现强于自注意力方法且参数量更少。
- 如何教会关键词探测器在有限的示例下发现新关键词
KeySEM 是一种基于语音嵌入的关键词识别模型,可用于个性化关键词识别,并能够在有限的示例中高效地学习新关键词,提高关键词识别的性能,这种方法适用于需要在设备上进行学习和自定义的场景。
- 关键词变换器:一种自注意力模型用于关键词检测
本研究旨在将 Transformer 架构应用于关键词检测中,引入了全自注意力架构,即 Keyword Transformer (KWT),其不需要任何预训练或额外数据即可超越多项任务的现有表现,并在几种复杂模型中表现最好。通过在 Goog - 基于神经网络的关键词检测架构搜索
本文利用神经架构搜索来搜索卷积神经网络模型,以提高基于音频信号的关键词识别性能,同时保持合理的内存占用。通过不同 iable Architecture Search 技术搜索预定义细胞空间中的操作符和它们之间的连接,然后在深度和宽度上扩展发 - 使用原型网络进行少样本关键词识别
研究通过使用度量学习,以及选择临时和膨胀卷积等技术来解决关键词识别中的新词汇难题。同时,利用生成的数据集,可以使用少量样本准确识别新的用户自定义的关键词汇。
- 使用联邦学习在非独立同分布数据上训练关键词识别模型
本文研究了使用联邦学习的 on-device 训练方法,通过优化算法和参数配置,替代原有数据增强方法并探索师生模型训练等技术手段,提高了关键词识别模型的准确性。