Sep, 2023

LMMs 初探:与 GPT-4V (ision) 的初步探索

TL;DR通过分析最新的模型 GPT-4V,我们深入了解大型多模态模型(LMMs)的能力和特点,发现 GPT-4V 具有处理多种输入、具有广泛通用性的能力,以及通过理解图像上的视觉标记可以创造出新的人机交互方式。我们期望这项初步探索能够激发对下一代多模态任务形式、利用和增强 LMMs 以解决实际问题以及对多模态基础模型有更好理解的未来研究方向的启发。