Oct, 2024

ActiView:评估多模态大型语言模型的主动感知能力

TL;DR本研究针对多模态大型语言模型(MLLMs)在主动感知能力评估中的不足,提出了一种新的基准测试工具ActiView。该工具专注于通过一种特殊的视觉问答形式评估主动感知,发现MLLMs在同时读取和理解多张图像方面存在显著差距,强调需要对此领域给予更多关注。