Aug, 2023

Lip2Vec: 通过隐藏到隐藏的视听表示映射实现高效稳健的视觉语音识别

TL;DR基于Lip2Vec的视觉语音识别(VSR)模型通过学习先验模型,将嘴唇序列的编码潜在表示映射到对应的音频潜在表示,以实现有效的文本解码。利用现成的音频语音识别(ASR)模型将生成的音频表示解码为文本,该方法在LRS3数据集上实现了26的错误率(WER),并在VoxCeleb测试集上保持了合理的性能,为更灵活的口型阅读形式拉近了口语识别与视觉语音识别之间的性能差距。