在行动中联系多模态大型语言模型

Jun, 2024

在行动中联系多模态大型语言模型

Grounding Multimodal Large Language Models in Actions

Andrew Szot, Bogdan Mazoure, Harsh Agrawal, Devon Hjelm, Zsolt Kira...

TL;DR通过研究行为空间适配器，我们发现多模态大型语言模型在融入多种方法并处理连续行为和离散行为时可以获得最佳性能。

Abstract

multimodal large language models (MLLMs) have demonstrated a wide range of capabilities across many domains, including embodied ai. In this work, we study how to best ground a MLLM into different embodiments and

multimodal large language models embodied ai action space adaptors continuous actions discrete actions

发现论文，激发创造

语言模型作为零 - shot 规划器：提取行动知识用于具身代理

本文研究大型语言模型在互动环境中是否可以利用所学的世界知识来执行高层任务，并提出了一种条件方法，将语言模型生成的中级计划语义上翻译为合适的操作以提高执行性能。在 VirtualHome 环境中的实证评估结果表明，该方法在可执行性方面显著优于大型语言模型基线。

Jan, 2022

学习多模态环境中物理动作的影响

通过加入图像和文本等多种形式的感官信息以及使用对象的潜在表示对 LLM 进行扩展，以更好地预测动作结果，进而推广并学习物理常识推理。

Jan, 2023

通過行動學習增強大型語言模型代理

我们的研究探索了语言代理程序的开放式行为学习，在每一次迭代中，通过修正和更新当前可用的动作，从而提高动作的有效性，实验证明，这种开放式行为学习方法显著改善了代理程序的性能，突出了经验行为学习在更智能的大型语言模型代理程序发展中的重要性。

Feb, 2024

MotionLLM: 多模式运动语言学习与大型语言模型

通过使用预训练的 LLM 模型进行微调，本研究提出了 MotionLLM，一个简单且通用的框架，可实现单人和多人运动生成以及动作字幕生成。

May, 2024

大型语言模型在机器人领域的应用：机遇、挑战与展望

该研究全面概述了大型语言模型（LLMs）和多模态 LLMs 在各种机器人任务中的整合，并提出了一种利用多模态 GPT-4V 结合自然语言指令和机器人视觉感知增强具身任务规划的框架。基于多样化的数据集，我们的结果表明 GPT-4V 有效地提升了机器人在具身任务中的表现。对 LLMs 和多模态 LLMs 在各种机器人任务中的广泛调查和评估丰富了对以 LLMs 为中心的具身智能的理解，并提供了展望未来的关于人机环境交互的见解。

Jan, 2024

多模态大型语言和视觉模型综述

通过对具有多模态能力的 LLM 和 MM-LLM 的当前状况进行广泛回顾，本文涵盖了 LLM 的历史发展、注意力机制在提升模型性能方面的作用，以及 Fine-tuning 和 prompt engineering 等模型调整技术。同时还分析了伦理考虑和挑战，并讨论了开源和专有模型在 AI 研究中的影响。通过这个综述，我们揭示了 MM-LLM 在各种应用中的转型潜力。

Mar, 2024

使用大语言模型模块化地构建合作体验智能体

论文提出了一种新的基于大型语言模型的多智能体合作框架，在多种身体环境中测试并得到了良好的效果，其具备规划、沟通和与其他人类或智能体合作完成长期任务等能力，并且与人类沟通的模型更容易获得信任，这为未来的智能体合作研究奠定了基础。

Jul, 2023

LLM-Planner: 借助大型语言模型进行少样本基于实例的具身 agent 规划

本研究使用大型语言模型 (Large Language Models, LLMs) 作为规划师，以完成视觉感知环境中的复杂任务的具有身体接口的代理人。研究提出了 LLM-Planner 方法进行 few-shot planning，同时提出通过物理接口增强 LLMs 的简单而有效的方法，实验结果表明该方法在 ALFRED 数据集上能够取得与使用全数据训练的基线模型相当的性能。

Dec, 2022

F-LMM: 冻结大规模多模态模型的基础

通过冻结已训练好的 Large Multimodal Models（LMMs）并结合人机对话，我们提出了一种简单且有效的设计 F-LMM，可以在完全保留 LMMs 的通话能力的同时，在指示物镜分割和全景叙述理解等测试中实现有竞争力的性能。

Jun, 2024

多模式大型语言模型综述

本文旨在追踪和总结 MLLM 的最新进展，包括 MLLM 的公式，技术和应用，以及现有的挑战和有前途的研究方向。

Jun, 2023