BriefGPT.xyz
Ask
alpha
关键词
wer performance
搜索结果 - 1
视觉语音识别只需拟态
提出采用线性视觉前端结合更大 Conformer 编码器来实现更低的延迟,更高的内存效率和更好的 WER 性能,从而达到新的 TED LRS3 数据集上的视觉语音识别的最佳性能。
PDF
a year ago
Prev
Next