Jun, 2023

基于音频文本的关键字定位的潜在编码匹配

TL;DR本文提出了一种基于语音-文本嵌入的端到端模型的架构,使用动态规划算法将音频序列与基于单词的文本序列相同长度地划分,并提出了DSP方法,实现了音频-文本的对齐,实验结果表明,该模型在ROC曲线下的面积和等误差率方面优于现有技术14.4%和28.9%。