BriefGPT.xyz
Ask
alpha
关键词
text-video embedding
搜索结果 - 1
听觉、视觉与思考:基于预训练的文本 - 视频表示的视觉上下文感知语音识别
本研究致力于解决利用视觉信号来提高语音识别(ASR)的问题,探讨了一种基于自监督预训练的文本视频嵌入模型的视觉上下文感知 ASR 方法,该方法包括多流注意力结构和熟思(deliberation)模型,利用视觉信息的熟思模型比多流模型在干扰噪
→
PDF
4 years ago
Prev
Next