BriefGPT.xyz
大模型
Ask
alpha
关键词
vision-only self-supervised learning
搜索结果 - 1
多模态 LLM 的视觉缺陷探究
通过对 CLIP 模型的视觉嵌入空间与仅视觉自监督学习的对比研究,我们发现最新的多模态大型语言模型(MLLMs)在视觉能力方面仍然存在系统性缺陷。为了解决这些问题,我们提出了一种特征混合(MoF)方法,通过将视觉自监督学习特征与 MLLMs
→
PDF
6 months ago
Prev
Next