BriefGPT.xyz
大模型
Ask
alpha
关键词
low-level visual perception
搜索结果 - 3
低级视觉上多模态基础模型的基准:从单图像到图像对
通过设计基准测试,评估多模态大型语言模型 (MLLMs) 在低层次视觉感知和理解方面的能力,并将低层次视觉感知和描述的评估从单一图像扩展到图像对。研究发现,多个 MLLMs 在单一图像上表现出不错的低层次视觉能力,但只有 GPT-4V 在图
→
PDF
5 months ago
Q-Instruct: 提升多模态基础模型的低层视觉能力
基于 GPT-4V 的多模态基础模型,在低级视觉感知和理解任务方面带来了新的范式,可以对多种自然人类指令做出响应。通过大规模的主观实验收集了大量关于低级视觉的真实人类反馈,建立了包含 58K 个详细反馈的 Q-Pathway 数据集,实验结
→
PDF
8 months ago
Q-Bench:针对低级视觉的通用基准模型基准
通过构建低层视觉感知、低层视觉描述和视觉质量评估三个领域的综合基准,评估了多模式大型语言模型在低层视觉感知和理解方面的能力,并发现其具有基本的低层视觉技能,但这些技能仍不稳定和相对不精确,需要针对这些能力进行特定的增强。
PDF
9 months ago
Prev
Next