Feb, 2025

玛格玛:一个用于多模态人工智能代理的基础模型

TL;DR本研究针对现有视觉-语言模型的局限性,提出了Magma,一个具备空间-时间智能的基础模型,能够在数字和物理世界中执行多模态人工智能任务。Magma通过对多种异构数据集的训练,展示了其在用户界面导航和机器人操控任务中的突破性表现,超越了专门为这些任务量身定制的模型,展现出良好的实用性和广泛应用潜力。