Sep, 2023

利用 Whisper 模型的自动标签实现低资源语种的视觉语音识别

TL;DR该论文提出了一种面向多种语言特别是对于有限标注数据的低资源语言的强大的视觉语音识别(VSR)方法,通过使用 Whisper 模型,它可以进行语言识别和基于音频的语音识别,从而在没有人工注释的情况下获得与人工注释标签相似的 VSR 性能,并提供了大规模无标注多语言数据库的自动标签。