Oct, 2023

通过多模态大型语言模型实现端到端的具身决策: GPT4-Vision 及其后续探索

TL;DR通过 PCA-EVAL 基准和 HOLMES 多智能体协作框架的比较,我们发现 GPT4-Vision 模型在端到端的具体决策制定能力方面表现出色,平均决策准确率比 GPT4-HOLMES 高出 3%,但这种性能仅适用于最新的 GPT4-Vision 模型,超过开源最先进的多模态大型语言模型的 26%。我们的结果表明,像 GPT4-Vision 这样功能强大的多模态大型语言模型对具体决策有很大的潜力,为多模态大型语言模型研究开辟了新的途径。