深度口语关键词检测:概述
本论文针对实际应用中未被训练过的词语进行视觉关键词检测的问题,并使用端到端的多层神经网络架构,使用语音图形编码器解决了此问题,该模型在 LRS2 数据集上取得了非常有前途的结果。
Jul, 2018
KeySEM 是一种基于语音嵌入的关键词识别模型,可用于个性化关键词识别,并能够在有限的示例中高效地学习新关键词,提高关键词识别的性能,这种方法适用于需要在设备上进行学习和自定义的场景。
Jun, 2021
本研究提出一种名为 KWS-Net 的卷积神经网络结构,通过序列匹配和模式检测技术,从视觉角度自动检测并确定在何时,是否有包含关键词的口型出现,在无音频或有清晰 / 嘈杂语音的情况下,性能优于现有的同类方法,还在跨语言处理上实现了良好的表现。
Sep, 2020
本研究旨在针对资源受限的微控制器上运行的关键词检测(Keyword spotting,KWS)应用,对神经网络架构进行评估和探索。我们训练了各种已经在文献中发表的用于关键词检测的神经网络架构,比较了它们的准确性和存储器 / 计算要求。我们表明,我们可以优化这些神经网络架构来适应微控制器的存储器和计算限制,而不会牺牲准确性。此外,我们进一步探索了深度可分离卷积神经网络(DS-CNN),并将其与其他神经网络架构进行了比较。DS-CNN 实现了 95.4%的准确性,比具有类似参数数量的 DNN 模型高出约 10%。
Nov, 2017
提出了 MM-KWS,一种新颖的用户定义关键词识别方法,利用文本和语音模板的多模态注册。通过从文本和语音中提取音素、文本和语音嵌入,将这些嵌入与查询语音嵌入进行比较,以检测目标关键词。为了确保 MM-KWS 在多种语言环境下的适用性,利用了包含多个多语言预训练模型的特征提取器。此外,还整合了高级数据增强工具,以提高 MM-KWS 在区分混淆单词方面的性能。在 LibriPhrase 和 WenetPhrase 数据集上的实验证明,MM-KWS 明显优于之前的方法。
Jun, 2024
本论文提出了一种新的端到端体系结构,并使用参数化 Sinc 卷积直接从原始音频中提取谱特征,实现了关键词的实时分类,其准确度高达 96.4%,序数为 62k。
Nov, 2019
本研究提出了一种名为 AdaKWS 的新型关键词检测方法,通过训练一个文本编码器输出与关键词相关的归一化参数,从而用于处理听觉输入,并在多语言基准测试和低资源语言上展开全面评估,取得了显著的性能改进。
Sep, 2023
本文研究了一种基于语音增强的无监督学习方法来解决关键词检测任务,提出了一种 CNN-Attention 模型来处理关键词检测任务,并通过两种语音增强方法来提高模型的稳健性和分类效果,实验表明,这种增强式的无监督学习方法能够进一步提高关键词检测的准确率。
May, 2022
本文介绍了使用不同的在线数据增强和引入 ConformerGRU 模型架构进行训练的 AraSpot 阿拉伯语关键词识别,最终通过训练文本到语音模型进行合成数据生成,取得了 99.59%的最新成果,优于以前的方法。
Mar, 2023