Aug, 2024
UniBench:视觉推理需要重新思考超越规模的视觉语言
UniBench: Visual Reasoning Requires Rethinking Vision-Language Beyond
Scaling
TL;DR本研究针对视觉语言模型(VLM)评估中的系统性问题,提出了UniBench,统一实现50多个VLM基准,涵盖从物体识别到空间意识等多种能力。研究发现,尽管扩大训练数据或模型规模可以提升许多模型能力,但在推理和关系任务上却效果不佳,更精准的数据质量干预和定制学习目标则提供了更大的潜力。