- 全局 - 局部卷积与脉冲神经网络在能效关键词检测中的应用
通过利用脉冲神经网络的能效优势,我们提出了一种端到端轻量级的关键词识别模型,其中包括全局 - 局部脉冲卷积模块和瓶颈 - 脉冲增强模块,通过精心设计的特征提取方法,实现了更稀疏、更能源高效且性能更好的语音特征提取,进一步通过瓶颈 - 脉冲增 - ED-sKWS: 早期决策脉冲神经网络的快速、能效高的关键词检测
该研究介绍了一种基于脉冲神经网络的关键词检测模型 ED-sKWS,该模型引入了一种早期决策机制,能够在语音结束前停止语音处理并输出结果。此外,该研究还引入了一种累积时间损失 CT,可提高预测精度。实验证明,相比没有早期决策机制的脉冲神经网络 - 快速关键词检测的稀疏二值化
基于稀疏输入表示的关键词检测模型在效率上比之前的最先进边缘设备兼容模型快四倍,且具有更好的准确性,同时在嘈杂环境中更加稳定。
- 基于音频文本的关键词检测的关系代理损失
通过引入关系型代理损失(RPL)的概念,利用声学嵌入和文本嵌入之间的关系结构,改进了现有方法,在华尔街日报(WSJ)语料库上展示了更好的性能。
- 基于卷积神经网络的人体检测和关键词识别的无触点电梯研究
本研究提出了一种概念验证,用于最小化人为干预、提高安全性、智能性和效率的非接触式电梯运行系统。使用微控制器边缘设备执行微小机器学习(tinyML)推断,通过人员检测和关键词识别算法,系统提供成本效益高且稳健的单元,无需基础设施的重大改变。该 - 通过自监督预训练实现噪声鲁棒的关键词检测
使用自我监督学习(SSL)预训练算法 Data2Vec 可以提高关键词识别(KWS)模型在嘈杂环境下的鲁棒性。
- 言不足以表达:歌唱语音识别中的进展与挑战
本文旨在探讨歌唱领域中的语音识别挑战和进展,包括音高变化、各种歌唱风格和背景音乐干扰等唱歌所特有的挑战。我们研究了音素识别、歌曲中的语言识别、关键词检测和完整歌词转写等关键领域。通过描述作者在这些任务刚开始崭露头角的研究经历,同时还介绍了近 - 关键字检测 -- 基于深度学习的口语指令识别
探索使用语音识别机器学习和深度学习技术进行关键词识别的重要任务,并实现了将原始波形转换为 Mel 频率倒谱系数作为模型输入的特征工程。通过尝试使用多种算法,包括混合高斯隐马尔科夫模型、卷积神经网络以及变种的循环神经网络,如长短时记忆和注意力 - 低资源设备上的关键词检测中的在线连续学习通过高阶时序统计的池化
嵌入式设备上的关键词检测模型需要快速适应新用户定义的词汇,同时不会遗忘之前的词汇。为此,我们提出了一种新的方法 ——Temporal Aware Pooling (TAP),用于构建丰富的特征空间,通过计算预先训练主干架构提取的语音特征的高 - 使用奖励调节反向 STDP 学习的定制 DNN 进行时间模式识别
本研究提出了一种新颖的算法,利用奖励调节行为、赫布规则和反赫布规则来识别动态数据集中时间间隔短的训练模式,该算法通过预处理将输入数据合理化并翻译成具有特征丰富但稀疏的脉冲时间序列数据,随后使用前馈式神经脉冲网络处理该数据以识别训练模式,并进 - 基于音频文本的关键字定位的潜在编码匹配
本文提出了一种基于语音 - 文本嵌入的端到端模型的架构,使用动态规划算法将音频序列与基于单词的文本序列相同长度地划分,并提出了 DSP 方法,实现了音频 - 文本的对齐,实验结果表明,该模型在 ROC 曲线下的面积和等误差率方面优于现有技术 - 用于设备上关键词识别系统自定义的 Few-Shot 开放集学习
本研究针对 KeyWord Spotting 的应用场景,提出了基于 Deep Learning 和 Few-shot Learning 的开放式分类方法,并通过使用三元组损失训练编码器,实现了较高的精度和较低的未知数据虚警率。
- 低资源语言中的仇恨言论检测:比较 ASR 和语音词嵌入在 Wolof 和斯瓦希里语中的表现
通过关键词检测辨别广播中的仇恨言论,使用语音识别系统和声学词嵌入模型来检测寡资源语言中的关键词,与语音识别相比,声学词嵌入方法只需要少量关键词示例,并且在野外测试中具有更好的性能。
- 从非常嘈杂和混杂的语音中识别关键词
本文提出了一种新的 Mix Training(MT)策略,用于探测嵌入在强干扰和混合语音中的低能量关键词,使用卷积神经网络(CNN)和 EfficientNet(B0/B2)架构,实验结果在 Google 语音命令数据集上表明,提出的混合训 - 基于条件的在线关键词检测学习
本研究探讨了一种简单而有效的在线持续学习方法,旨在通过随着新数据的不断出现在设备上通过随机梯度下降来更新关键词检测器。通过对不同情境下的动态音频流进行实验,该方法将性能提高了 34%。此外,实验表明,与一个朴素的在线学习实现相比,基于对训练 - 半监督联邦学习用于关键词检测
本研究探讨了利用半监督联邦学习和联邦学习进行关键词识别,在服务端只有少量标注数据情况下,运用半监督联邦学习技术对未标注的数据进行识别,证明了联合设备中大量未标注的异构数据可以显着提高关键词识别模型的性能。
- 关键词检测的小型可压缩网络
本文介绍了应用于小尺寸关键词检测问题的可调整神经网络。我们展示了可调整神经网络如何允许我们从卷积神经网络和 Transformer 创建超网络,从中可以提取不同尺寸的子网络。我们在本文中展示了这些模型的实用性,并重点关注设备上的用例,将自己 - 基于声纹选择和语音转换的关键词检测后门攻击
使用 Voiceprint Selection 和 Voice Conversion 的后门攻击方案可以成功地攻击基于深度神经网络的关键词识别系统,从而引起误判。
- 基于声调增强和声音遮蔽的关键词检测后门攻击
本文提出了一种基于 Pitch Boosting 和 Sound Masking 的关键词检索(KWS)后门攻击方案(PBSM),实验结果表明可以在污染少于 1% 的训练数据的情况下实现约 90% 的攻击成功率。
- BiFSMNv2:将二进制神经网络推向实际网络性能的关键识别应用
本文介绍了一种强大而高效的二进制神经网络 BiFSMNv2,用于边缘端的关键词识别应用中。使用双尺度可调节的 1 位体系结构,独立分离高低频组分以缓解精度和二进制之间的信息不匹配,并提出了学习传播二元化算子,用于二进制网络的前向和后向传播的