通过多模态大型语言模型实现端到端的具身决策: GPT4-Vision 及其后续探索

Oct, 2023

通过多模态大型语言模型实现端到端的具身决策: GPT4-Vision 及其后续探索

Towards End-to-End Embodied Decision Making via Multi-modal Large Language Model: Explorations with GPT4-Vision and Beyond

PDF

Liang Chen, Yichi Zhang, Shuhuai Ren, Haozhe Zhao, Zefan Cai...

TL;DR通过 PCA-EVAL 基准和 HOLMES 多智能体协作框架的比较，我们发现 GPT4-Vision 模型在端到端的具体决策制定能力方面表现出色，平均决策准确率比 GPT4-HOLMES 高出 3%，但这种性能仅适用于最新的 GPT4-Vision 模型，超过开源最先进的多模态大型语言模型的 26%。我们的结果表明，像 GPT4-Vision 这样功能强大的多模态大型语言模型对具体决策有很大的潜力，为多模态大型语言模型研究开辟了新的途径。

Abstract

In this study, we explore the potential of multimodal large language models (MLLMs) in improving embodied decision-making processes for agents. While Large Language Models (LLMs) have been widely used due to thei

multimodal large language models embodied decision-making gpt4-vision benchmark holmes

发现论文，激发创造

大型语言模型在机器人领域的应用：机遇、挑战与展望

该研究全面概述了大型语言模型（LLMs）和多模态 LLMs 在各种机器人任务中的整合，并提出了一种利用多模态 GPT-4V 结合自然语言指令和机器人视觉感知增强具身任务规划的框架。基于多样化的数据集，我们的结果表明 GPT-4V 有效地提升了机器人在具身任务中的表现。对 LLMs 和多模态 LLMs 在各种机器人任务中的广泛调查和评估丰富了对以 LLMs 为中心的具身智能的理解，并提供了展望未来的关于人机环境交互的见解。

Jan, 2024

PCA-Bench: 评估感知 - 认知 - 行动链中的多模态大型语言模型

PCA-Bench 是一个用于评估多模态大型语言模型（MLLMs）综合能力的多模态决策基准，引入了三个复杂场景：自动驾驶、家庭机器人和开放世界游戏，并提出了误差定位能力和自动评估协议 PCA-Eval 对 10 种著名 MLLM 进行评估结果显示开源模型和 GPT-4 Vision 等强大专有模型之间存在显著性能差异，通过引入基于体验环境的自动框架 Embodied-Instruction-Evolution（EIE），在 PCA-Bench 中生成了 7,510 个训练示例，并提高了开源 MLLM 的性能，偶尔超越 GPT-4 Vision（+3％决策准确性），验证了 EIE 的有效性，发现 GPT4-Vision 之类的鲁棒 MLLM 对体验型代理的决策具有潜力，为 MLLM 研究开辟了新的道路。

Feb, 2024

使用大语言模型模块化地构建合作体验智能体

论文提出了一种新的基于大型语言模型的多智能体合作框架，在多种身体环境中测试并得到了良好的效果，其具备规划、沟通和与其他人类或智能体合作完成长期任务等能力，并且与人类沟通的模型更容易获得信任，这为未来的智能体合作研究奠定了基础。

Jul, 2023

EgoPlan-Bench：基于多模态大型语言模型的自我中心体验规划基准测试

多模态大型语言模型（MLLMs）在具有出色推理和概括能力的大型语言模型（LLMs）基础上开辟了新的具身任务规划途径。我们引入了一项人类注释的基准测试 EgoPlan-Bench，定量调查 MLLMs 在现实场景中作为具身任务规划器的潜力，并构建了一个指导调优数据集 EgoPlan-IT，这些实验结果表明，通过 EgoPlan-IT 调优的模型不仅在我们的基准测试中显著提高了性能，还在模拟中有效地扮演了具身规划器的角色。

Dec, 2023

LMMs 初探：与 GPT-4V (ision) 的初步探索

通过分析最新的模型 GPT-4V，我们深入了解大型多模态模型（LMMs）的能力和特点，发现 GPT-4V 具有处理多种输入、具有广泛通用性的能力，以及通过理解图像上的视觉标记可以创造出新的人机交互方式。我们期望这项初步探索能够激发对下一代多模态任务形式、利用和增强 LMMs 以解决实际问题以及对多模态基础模型有更好理解的未来研究方向的启发。

Sep, 2023

MLLM-Bench，使用 GPT-4V 评估多模式 LLMs

为了追求人工通用智能（AGI），将视觉集成到语言模型中标志着一个重要里程碑。视觉语言模型（MLLMs）的出现，如 GPT-4V，扩展了人工智能应用程序，与人脑的多模态能力相匹配。然而，评估 MLLMs 的有效性面临着重大挑战，因为缺乏确定性答案的任务具有主观性。现有的多模态大型语言模型的自动评估方法依赖于具有标准答案的客观查询，并未充分解决创造性和联想性多模态任务的细微差别。为了解决这个问题，我们引入了 MLLM-Bench，这是一个受 Vicuna 启发的创新基准，涵盖了各种场景，包括感知、理解、应用、分析、评估和创作，以及伦理考虑。MLLM-Bench 的设计更加准确地反映用户体验，并提供了对模型性能更全面的评估。对比评估结果表明，现有的开源模型和 GPT-4V 之间存在显著的性能差距。我们认为，MLLM-Bench 将推动开源社区在开发能满足广泛实际应用需求的用户导向视觉语言模型方面取得进展。请访问 https://mllm-bench.llmzoo.com 查看在线排行榜。

Nov, 2023

通过并行的文本世界训练的具有多模态的体验智能体

我们通过在文本世界的任务中，将大型语言模型（LLMs）的反思结果（通过分析错误改进的行为）融入到视觉世界的相同任务中来训练一个居住在视觉世界的视觉语言模型（VLM）代理，从而使得这个多模态的具身代理（EMMA）能够快速适应视觉世界的动态，并在 ALFWorld 基准测试中表现出优越的性能。

Nov, 2023

PaLM-E：一个实体多模语言模型

研究提出了一种具有体感的语言模型，其可以将现实世界的传感器和语言模型直接结合起来，从而实现语言和感知之间的链接，并且在多个机器人任务、图像问题解答和字幕生成等方面取得了良好的表现。

Mar, 2023

具身导航的 LLM 发展

近年来，大型语言模型（LLMs）如生成预训练变换器（GPT）的快速进展引起了越来越多的关注，由于它们在各种实际应用中的潜力。LLMs 与具身智能的应用已成为一个重要的研究领域，其中导航任务尤为引人注目，因为它们需要对环境有深刻的理解和快速准确的决策能力。本文全面总结了 LLMs 与具身智能之间的共生关系，重点关注导航领域。它回顾了最先进的模型、研究方法，并评估了现有具身导航模型和数据集的优缺点。最后，根据当前研究，阐明了 LLMs 在具身智能中的作用，并预测了未来的研究方向。本调查的研究清单可在此 https URL 上找到。

Nov, 2023

多模态大型语言和视觉模型综述

通过对具有多模态能力的 LLM 和 MM-LLM 的当前状况进行广泛回顾，本文涵盖了 LLM 的历史发展、注意力机制在提升模型性能方面的作用，以及 Fine-tuning 和 prompt engineering 等模型调整技术。同时还分析了伦理考虑和挑战，并讨论了开源和专有模型在 AI 研究中的影响。通过这个综述，我们揭示了 MM-LLM 在各种应用中的转型潜力。

Mar, 2024