Nov, 2016

LipNet:端对端的句子级唇读

TL;DRLipNet 是一个全新的、端到端的实时语音转文字模型,它能够将连续的视频帧序列准确地映射成文本,并能够同时学习时空视觉特征和序列模型,它在句子级别的听力阅读任务上表现出色,实现了 95.2%的精度,优于先前研究的单词级准确度。