Aug, 2023

基于动态模块跳过的流式conformer编码器提升视觉驱动的关键词识别

TL;DR利用一种以视觉为灵感的关键词检测框架,我们提出了一种具有输入相关动态深度的架构,能够处理流媒体音频。我们通过在可训练的二进制门中扩展一个conformer编码器来动态跳过网络模块。我们的方法在使用Librispeech前1000个最常见单词进行持续语音上的检测和定位准确性方面有所提高,同时还保持了较小的内存占用。引入门也减少了处理的平均量,而不影响整体性能。在背景噪声下使用谷歌语音命令数据集时,这些好处尤为明显,非语音输入中可省略多达97%的处理,因此使我们的方法特别适用于始终开启的关键词检测器。