Apr, 2024

IsoBench: 基于同构表示的多模态基础模型对比

TL;DR当前的基础模型在以文本或图像和文本输入作为提示时都展现出令人印象深刻的能力。然而,它们的能力是否因输入模态的不同而改变呢?本研究提出了一种名为IsoBench的基准数据集,其中包含了来自数学、科学、算法和游戏四个主要领域的问题。每个示例都以多种同构表示形式呈现,如视觉、文本和数学表达。IsoBench提供了细粒度的反馈,以诊断由表示形式引起的性能差距。在各种基础模型中,我们发现在同一个问题上,模型对文本表示有一致的偏好。尤其是,在对所有IsoBench问题进行评估时,Claude-3 Opus模型在提供图像而不是文本时表现较差,差距为28.7分;同样,GPT-4 Turbo差距为18.7分,Gemini Pro差距为14.9分。最后,我们提出了两种提示技术,即IsoCombination和IsoScratchPad,通过考虑不同输入表示之间的组合和转换,提高了模型的性能。