BriefGPT.xyz
Ask
alpha
关键词
akvsr
搜索结果 - 1
AKVSR: 基于压缩预训练模型的音频知识增强的视觉语音识别
提出了一种基于音频知识的视觉语音识别框架(AKVSR),通过使用音频模态来补充视觉模态中不足的语音信息,利用预训练的大规模音频模型编码丰富的音频知识,并通过量化舍弃非语言信息从而将语言信息保存在紧凑的音频存储器中,并包括能够从紧凑的音频存储
→
PDF
a year ago
Prev
Next