Apr, 2022

使用预训练视觉特征提取器和约束 CTC 解码的提示语音识别多流神经网络结构

TL;DR本文提出一种基于预训练手部和唇部跟踪器和基于多流递归神经网络的语音解码器的方法,用于自动识别 Cued Speech(一种视觉交流工具),该工具可通过手势和唇读辅助理解口语。该系统在法国 CSF18 数据集上评估,准确率为 70.88%,表现优于 CNN-HMM 译码器并与更复杂的基线方法竞争。