Jun, 2024

两只长颈鹿在泥地中:利用游戏玩法研究大型多模型中的情景建模

TL;DR我们将一种最近发展起来的评估模型应用于多模态模型,通过目标导向的游戏来评估模型的性能,我们发现最大的闭合模型在我们定义的游戏中表现相当好,而最好的开放式模型却困难重重。进一步分析发现,最大模型的卓越深层描述能力推动了一些性能。两种模型均有进一步发展的空间,保证了基准的持续重要性。