Dec, 2023

2023 CNVSRC 挑战赛 GUA-Speech 系统介绍

TL;DR这项研究描述了我们在 2023 年中国持续视觉语音识别挑战赛中针对任务 1 单说话者视觉语音识别(VSR)固定轨道的系统。具体来说,我们在模型中使用中间连接主义时间分类(Inter CTC)残差模块来放宽 CTC 的条件独立性假设,然后使用双变压器解码器使模型能够捕捉过去和未来的上下文信息。此外,我们使用汉字作为建模单元来提高模型的识别准确性。最后,在推断阶段,我们使用了递归神经网络语言模型(RNNLM)进行浅层融合。实验表明,我们的系统在评估集上的字符错误率(CER)为 38.09%,相对于官方基准线减少了 21.63%,并在挑战赛中获得了第二名。