BriefGPT.xyz
大模型
Ask
alpha
关键词
av-asr
搜索结果 - 1
CVPR
AVFormer: 为冻结的语音模型注入视觉信息以实现零样本 AV-ASR
AVFormer 是一种简单的方法,使用轻量级可训练的适配器将视觉嵌入注入到冻结的语音识别模型中,并引入了一种培训方案。同时用小量且弱标注视频数据进行培训。实验结果表明,该方法在三个不同的音视频 ASR 基准(How2、VisSpeech
→
PDF
a year ago
Prev
Next