BriefGPT.xyz
Ask
alpha
关键词
clip-vit-l-336px
搜索结果 - 1
通过视觉指导优化的改进基准模型
通过对 LLaVA 进行简单修改,采用 CLIP-ViT-L-336px 与 MLP 投影以及添加面向学术任务的 VQA 数据,我们建立了更强的基线模型,在 11 个基准测试中达到了最新的成果。
PDF
9 months ago
Prev
Next