BriefGPT.xyz
Ask
alpha
关键词
llava
搜索结果 - 4
重新思考视觉语言模型中被忽视的方面
该论文研究了大型视觉语言模型(LVLMs)中数据效率的常常被忽视的方面,以及预训练和微调数据的选择过程,旨在优化数据使用来增强视觉语言模型的性能。
PDF
2 months ago
多模态 LLMs 在基础视觉网络分析中的挑战:VNA 基准测试
评估了 GPT-4 和 LLaVa 在小规模图上执行简单的视觉网络分析任务的零样本能力,并发现尽管 GPT-4 始终优于 LLaVa,但两个模型在所有提出的任务中都难以解决每个视觉网络分析任务,我们还公开发布了首个基于视觉网络分析任务评估
→
PDF
2 months ago
通过视觉指导优化的改进基准模型
通过对 LLaVA 进行简单修改,采用 CLIP-ViT-L-336px 与 MLP 投影以及添加面向学术任务的 VQA 数据,我们建立了更强的基线模型,在 11 个基准测试中达到了最新的成果。
PDF
9 months ago
SciGraphQA:面向科学图表的大规模合成多轮问答数据集
本文介绍了 SciGraphQA,这是一个与学术图表相关的合成多轮问答数据集,它是迄今为止最大的非合成图表视觉问答数据集,使用 Palm-2 从计算机科学和机器学习 ArXiv 论文中生成了 295K 个开放式多轮问答对话样本,并通过 GP
→
PDF
a year ago
Prev
Next