Oct, 2022

利用发音嵌入的点积进行口语术语识别和相关分数估计

TL;DR该论文提出了一种利用深度 LSTM 网络在大型口语档案中进行口语检测的新方法,通过对语音识别器生成的音素混淆网络进行处理,并使用另一个深度 LSTM 网络来将搜索术语投影到同一嵌入空间中,计算相关度,并使用 sigmod 函数进行校准来预测发生的概率,最后从输出概率序列中估计搜索术语的位置。