Jun, 2024

MM-KWS: 多模态用户定义多语言关键词检测

TL;DR提出了 MM-KWS,一种新颖的用户定义关键词识别方法,利用文本和语音模板的多模态注册。通过从文本和语音中提取音素、文本和语音嵌入,将这些嵌入与查询语音嵌入进行比较,以检测目标关键词。为了确保 MM-KWS 在多种语言环境下的适用性,利用了包含多个多语言预训练模型的特征提取器。此外,还整合了高级数据增强工具,以提高 MM-KWS 在区分混淆单词方面的性能。在 LibriPhrase 和 WenetPhrase 数据集上的实验证明,MM-KWS 明显优于之前的方法。