Aug, 2017

使用域对抗训练提高无需说话者口型识别

TL;DR本文介绍了一种唇读系统,即一种只使用视觉特征的语音识别系统,它利用了领域对抗训练等技术以实现说话人无关性,用于优化由一系列前馈神经网络和 LSTM 递归神经网络构成的唇读者,并实现了端到端可训练的系统,只需要少量带有未转录目标数据的 frames 即可在目标说话人的语音识别准确率上显著提高约 40%。