BriefGPT.xyz
Ask
alpha
关键词
brave
搜索结果 - 2
BRAVE:拓宽视觉语言模型的视觉编码
通常,视觉语言模型(VLM)由视觉编码器(例如 CLIP)和解释编码特征以解决下游任务的语言模型(LM)组成。我们研究拓展 VLM 的视觉编码能力以应对其局限性,我们首先全面评估了几个具有不同归纳偏差的视觉编码器在解决 VLM 任务时的性能
→
PDF
3 months ago
ICCV
自监督视频学习的拓展视野
BraVe 采用不同的视角和时间窗口对视频进行自我监督学习,利用不同的后骨干网络以实现对视图的增强和制作多种视听模型,成功在 UCF101、HMDB51、Kinetics、ESC-50 以及 AudioSet 视听分类基准测试中取得最先进的
→
PDF
3 years ago
Prev
Next