Jan, 2024

通过学习离散化的视觉口语单位单模型实现多语言视觉口语识别

TL;DR该研究探索了使用单个模型的句子级多语种视觉语音识别,通过将视觉语音单元离散化作为输入,基于自监督视觉语音模型从 5,512 小时的多语种音频 - 视觉数据上进行训练,结合曲线学习改善语音识别中的视觉信息缺失,实现了与以往特定语言视觉语音识别模型相当的性能。