Feb, 2022

野外多语言视觉语音识别

TL;DR本文旨在通过视觉手势识别来实现基于嘴唇运动的语音识别,通过优化模型设计和参数, 加入额外任务,并增加数据扩充,提高模型性能,实现在不同语言下超越以前的所有基于公开数据集的模型表现,并比训练基于非公开数据集的模型表现更好。