Feb, 2022

使用基于视觉的语音模型对未转录语音进行关键词定位

TL;DR本文提出了基于视觉语音联合训练的模型,通过设置三层局部化能力实现了在语音中关键词的局部化,并使用注意力模型和得分聚合模型在模型结构中加入局部化能力,同时使用输入遮蔽方法和显著度方法实现预测优化。