BriefGPT.xyz
大模型
Ask
alpha
关键词
visual perception abilities
搜索结果 - 1
BLINK:多模态大型语言模型具备视觉但无感知能力
Blink 是一个针对多模式语言模型(LLMs)的新基准,重点关注其他评估中找不到的核心视觉感知能力。通过对 14 个经典的计算机视觉任务进行改组,Blink 生成了 3,807 个多项选择题,配备单个或多个图像和视觉提示。虽然人类平均准确
→
PDF
2 months ago
Prev
Next