BriefGPT.xyz
大模型
Ask
alpha
关键词
general domain
搜索结果 - 1
使用 CLIP 引导的视觉文本注意力进行视频问答
本文提出了一种利用 Contrastive Language-Image Pre-training(CLIP)作为跨模态学习指导的 Visual-Text Attention 机制来应用于视频问答任务。在特定领域中提取视频和文本特征后,利用
→
PDF
a year ago
Prev
Next