BriefGPT.xyz
大模型
Ask
alpha
关键词
contrastive language-image pretraining
搜索结果 - 22
ECCV
扩展语言图像预训练模型以实现通用视频识别
本文提出一种简单有效的方法,将预先训练好的语言 - 图像模型直接应用于视频识别中,使用跨帧注意力机制及视频特定提示方案,实现对长时序列的检测,提高了零样本下的准确率。
PDF
2 years ago
CVPR
ADAPT: 视觉语言导航中的模态对齐行动提示
本文提出了一种 Modality-Alignment Action Prompts (ADAPT) 方法,通过显式学习行动水平的模态对齐来实现对视觉环境下指令级操作的感知导航,并通过对高质量行动提示进行收集来提升对相关提示的对齐性。
PDF
2 years ago
Prev
Next