Oct, 2024

AutoBench-V:大规模视觉语言模型能否进行自我评估?

TL;DR本研究解决了大规模视觉语言模型(LVLMs)评估中的主要挑战,提出了一种名为AutoBench-V的自动化评估框架。该框架灵活高效地根据特定模型能力进行评估,实验显示其能够有效反映任务难度,并揭示了LVLMs在自动化基准测试中具备的重大潜力。