学习音频文本协同以实现开放式关键词定位

Jun, 2022

学习音频文本协同以实现开放式关键词定位

Learning Audio-Text Agreement for Open-vocabulary Keyword Spotting

Hyeon-Kyeong Shin, Hyewon Han, Doyeon Kim, Soo-Whan Chung, Hong-Goo Kang

TL;DR本文提出一种新颖的端到端的用户定义关键词检测方法，利用语音和文本序列之间的语言对应模式，实现音频和文本表征在共同的隐含空间中；采用基于注意力的跨模态匹配方法，训练具有单调匹配损失和关键词分类损失的模型，并利用去噪损失改善模型在嘈杂环境中的稳健性，同时引入 LibriPhrase 数据集用于高效地训练关键词检测模型；与其他单模态和跨模态基线相比，在各种评估集上取得了有竞争力的结果。

Abstract

In this paper, we propose a novel end-to-end user-defined keyword spotting method that utilizes linguistically corresponding patterns between speech and text sequences. Unlike previous approaches requiring speech

user-defined keyword spotting cross-modal matching libriphrase dataset attention-based end-to-end

发现论文，激发创造

基于音频文本的关键字定位的潜在编码匹配

本文提出了一种基于语音 - 文本嵌入的端到端模型的架构，使用动态规划算法将音频序列与基于单词的文本序列相同长度地划分，并提出了 DSP 方法，实现了音频 - 文本的对齐，实验结果表明，该模型在 ROC 曲线下的面积和等误差率方面优于现有技术 14.4% 和 28.9%。

Jun, 2023

CTC 对齐的音频文本嵌入与流式开放词汇关键词检测

本文介绍了一种新颖的流式开放性词汇关键词定位方法，通过基于文本的关键词注册，在每个输入帧上使用连接主义时间分类（CTC）寻找以该帧结尾的最佳对齐，并聚合帧级声学嵌入（AE）以获得与目标关键词文本的文本嵌入（TE）对齐的更高级别（即字符、词或短语）的 AE，然后计算聚合 AE 与 TE 的相似度，取得了流媒体开放性词汇关键词定位的联合音频文本嵌入的最佳效果，尽管以流式方式操作，但我们的方法在 LibriPhrase 数据集上取得了竞争性的性能，仅使用了 155K 个模型参数和时间复杂度为 O (U) 的解码算法，其中 U 是推断时目标关键词的长度。

Jun, 2024

注意力视觉关键词检测

本研究提出 Transpotter 模型，使用全面的跨模态注意力机制在视觉和语音流之间进行交互，成功实现静默视频序列中的语音关键词检测，并且在多项测试中，优于当前视觉关键词检测和唇语识别模型，并具备较强的嘴型单词分离的能力。

Oct, 2021

基于同构音频文本嵌入的灵活关键词检测

利用音频一致性文本编码器，通过转换文本到音素再到嵌入，检测任意关键词并辅以混淆关键词生成，实现具有强辨别力的音频 - 文本嵌入验证器。在实验中，该方案在 Libriphrase 难数据集上表现优于现有技术，AUC 指标从 84.21% 提升至 92.7%，EER 指标从 23.36% 降低至 14.4%。

Aug, 2023

观察唤醒词：视听关键词检测

本研究提出一种名为 KWS-Net 的卷积神经网络结构，通过序列匹配和模式检测技术，从视觉角度自动检测并确定在何时，是否有包含关键词的口型出现，在无音频或有清晰 / 嘈杂语音的情况下，性能优于现有的同类方法，还在跨语言处理上实现了良好的表现。

Sep, 2020

MM-KWS: 多模态用户定义多语言关键词检测

提出了 MM-KWS，一种新颖的用户定义关键词识别方法，利用文本和语音模板的多模态注册。通过从文本和语音中提取音素、文本和语音嵌入，将这些嵌入与查询语音嵌入进行比较，以检测目标关键词。为了确保 MM-KWS 在多种语言环境下的适用性，利用了包含多个多语言预训练模型的特征提取器。此外，还整合了高级数据增强工具，以提高 MM-KWS 在区分混淆单词方面的性能。在 LibriPhrase 和 WenetPhrase 数据集上的实验证明，MM-KWS 明显优于之前的方法。

Jun, 2024

自适应实例正则化的开放词汇关键词检测

本研究提出了一种名为 AdaKWS 的新型关键词检测方法，通过训练一个文本编码器输出与关键词相关的归一化参数，从而用于处理听觉输入，并在多语言基准测试和低资源语言上展开全面评估，取得了显著的性能改进。

Sep, 2023

通过多语言对比的语音音素预训练在任何语言中实现开放词汇关键词检测

这篇论文介绍了一种包含 115 多种不同语系的细粒度音素转录的大规模多语言语音语料库。基于这个多语言数据集，我们提出了 CLAP-IPA，这是一种能够在语音信号和音素转录的关键词或任意短语之间进行开放词汇匹配的多语言音素语音对比嵌入模型。所提出的模型已在 97 种未见过的语言中的两个实地语音语料库上进行了测试，展示了跨语言的强大泛化能力。与基于文本的模型相比，使用音素作为建模单位比正字文本具有更好的跨语言泛化能力。

Nov, 2023

使用有限和合成的语音数据训练关键词检测器

本文研究使用合成语音数据为小型的口语术语检测模型训练提取有用特征的预训练语音嵌入模型，相较于在 500 个真实示例上训练模型，只使用合成语音即可达到同等精度。

Jan, 2020

利用说话者信息个性化关键词检测

通过整合说话者信息到关键词检测系统，使用 Feature-wise Linear Modulation（FiLM）方法从多个信息源进行学习，我们在多样化数据集上实验并取得了显著提高的关键词检测准确性，特别是在不平衡说话者群体中，还能在参数数量上只增加 1% 的情况下，最小程度影响延迟和计算成本，使其成为实际应用中的可行解决方案。

Nov, 2023