Aug, 2023

基于同构音频文本嵌入的灵活关键词检测

TL;DR利用音频一致性文本编码器,通过转换文本到音素再到嵌入,检测任意关键词并辅以混淆关键词生成,实现具有强辨别力的音频 - 文本嵌入验证器。在实验中,该方案在 Libriphrase 难数据集上表现优于现有技术,AUC 指标从 84.21% 提升至 92.7%,EER 指标从 23.36% 降低至 14.4%。