Oct, 2023
通过多模态大型语言模型实现端到端的具身决策: GPT4-Vision 及其后续探索
Towards End-to-End Embodied Decision Making via Multi-modal Large Language Model: Explorations with GPT4-Vision and Beyond
Liang Chen, Yichi Zhang, Shuhuai Ren, Haozhe Zhao, Zefan Cai...
TL;DR通过 PCA-EVAL 基准和 HOLMES 多智能体协作框架的比较,我们发现 GPT4-Vision 模型在端到端的具体决策制定能力方面表现出色,平均决策准确率比 GPT4-HOLMES 高出 3%,但这种性能仅适用于最新的 GPT4-Vision 模型,超过开源最先进的多模态大型语言模型的 26%。我们的结果表明,像 GPT4-Vision 这样功能强大的多模态大型语言模型对具体决策有很大的潜力,为多模态大型语言模型研究开辟了新的途径。