Jan, 2022

鲁棒性自监督视听语音识别

TL;DR本文提出了一个基于 AV-HuBERT 模型的自监督音视频言语识别框架,利用 LRS3 数据集的少量标记数据,在噪音干扰的情况下提高了超过 50% 的性能,并且比基于音频的模型将词错误率减少了 75% 以上。