Feb, 2023

视觉语音识别只需拟态

TL;DR提出采用线性视觉前端结合更大 Conformer 编码器来实现更低的延迟,更高的内存效率和更好的 WER 性能,从而达到新的 TED LRS3 数据集上的视觉语音识别的最佳性能。