Jun, 2022

学习音频文本协同以实现开放式关键词定位

TL;DR本文提出一种新颖的端到端的用户定义关键词检测方法,利用语音和文本序列之间的语言对应模式,实现音频和文本表征在共同的隐含空间中;采用基于注意力的跨模态匹配方法,训练具有单调匹配损失和关键词分类损失的模型,并利用去噪损失改善模型在嘈杂环境中的稳健性,同时引入 LibriPhrase 数据集用于高效地训练关键词检测模型;与其他单模态和跨模态基线相比,在各种评估集上取得了有竞争力的结果。