BriefGPT.xyz
Feb, 2025
玛格玛:一个用于多模态人工智能代理的基础模型
Magma: A Foundation Model for Multimodal AI Agents
HTML
PDF
Jianwei Yang, Reuben Tan, Qianhui Wu, Ruijie Zheng, Baolin Peng...
TL;DR
本研究针对现有视觉-语言模型的局限性,提出了Magma,一个具备空间-时间智能的基础模型,能够在数字和物理世界中执行多模态人工智能任务。Magma通过对多种异构数据集的训练,展示了其在用户界面导航和机器人操控任务中的突破性表现,超越了专门为这些任务量身定制的模型,展现出良好的实用性和广泛应用潜力。
Abstract
We present Magma, a
Foundation Model
that serves
Multimodal AI
agentic tasks in both the digital and physical worlds. Magma is a significant extension of
→