Oct, 2023

一瞥即足够:通过关注关键词提取目标句子

TL;DR本研究使用关键词作为输入,探讨从多人说话中提取目标句子的可能性。通过使用Transformer架构嵌入关键词和语音,以及借助交叉注意机制从混杂与重叠的语音中选择正确的内容,实验证明该方法在非常嘈杂和混合的语音中(SNR=-3dB)能够有效提取目标句子,达到26%的电话错误率(PER),而基准系统的PER为96%。