Jun, 2024

CTC 对齐的音频文本嵌入与流式开放词汇关键词检测

TL;DR本文介绍了一种新颖的流式开放性词汇关键词定位方法,通过基于文本的关键词注册,在每个输入帧上使用连接主义时间分类(CTC)寻找以该帧结尾的最佳对齐,并聚合帧级声学嵌入(AE)以获得与目标关键词文本的文本嵌入(TE)对齐的更高级别(即字符、词或短语)的 AE,然后计算聚合 AE 与 TE 的相似度,取得了流媒体开放性词汇关键词定位的联合音频文本嵌入的最佳效果,尽管以流式方式操作,但我们的方法在 LibriPhrase 数据集上取得了竞争性的性能,仅使用了 155K 个模型参数和时间复杂度为 O (U) 的解码算法,其中 U 是推断时目标关键词的长度。