BriefGPT.xyz
大模型
Ask
alpha
关键词
audio visual
搜索结果 - 1
ACL
基于 Transformer 的多分辨率和多模式语音识别
本篇论文介绍了一个基于 Transformer 架构的音频视觉自动语音识别(AV-ASR)系统,特别关注视觉信息提供的场景背景,以支撑 ASR。我们从变换器的编码器层中提取音频特征的表示,并使用附加的跨模态多头注意层融合视频特征。此外,我们
→
PDF
4 years ago
Prev
Next