BriefGPT.xyz
大模型
Ask
alpha
关键词
lrs3-ted public corpus
搜索结果 - 1
基于 Transformer 的音视频前端技术为单人和多人视频实现语音识别
本文提出使用视频变压器替换三维卷积进行视觉特征提取,从而提高音频 - 视觉自动语音识别的性能,并在大规模的 YouTube 视频语料库以及 LRS3-TED 公共语料库上进行了评估。实验结果表明,该方法在 LRS3-TED 上取得了国际领先
→
PDF
2 years ago
Prev
Next