Nov, 2022

基于 Transformer 编码器 - 编码器架构的口语检索

TL;DR本文提出了一种基于 Transformer 结构的语音词项检测方法,采用两个 BERT-like 编码器并进行了适当的修改,包括卷积和上采样层、注意力掩码、共享参数等,将假设和搜索术语投影到共享嵌入空间中,并使用校准点积计算假设的命中得分。在实验中,使用了 Wav2Vec 2.0 语音识别器,并在基于 USC Shoah 基金会视觉历史档案(MALACH)的英语和捷克 STD 数据集上,提出的系统优于基于深度 LSTM 的基线方法。