RoboLLM: 基于多模态大型语言模型的机器人视觉任务

Oct, 2023

RoboLLM: 基于多模态大型语言模型的机器人视觉任务

RoboLLM: Robotic Vision Tasks Grounded on Multimodal Large Language Models

Zijun Long, George Killick, Richard McCreadie, Gerardo Aragon Camarasa

TL;DR通过利用多模态大语言模型（MLLMs）的预训练能力，我们介绍了 RoboLLM 框架以应对 ARMBench 挑战中的视觉感知任务，在实际仓库场景下的大规模机器人操作数据集中，RoboLLM 不仅优于现有基线方法，还大幅减少了模型选择和调优的工作量。

Abstract

robotic vision applications often necessitate a wide range of visual perception tasks, such as object detection, segmentation, and identification. While there have been substantial advances in these individual tasks, integrating specialized models into a unified vision pipeline present

robotic vision multimodal large language models simplified framework robollm armbench challenge

发现论文，激发创造

大型语言模型在机器人领域的应用：机遇、挑战与展望

该研究全面概述了大型语言模型（LLMs）和多模态 LLMs 在各种机器人任务中的整合，并提出了一种利用多模态 GPT-4V 结合自然语言指令和机器人视觉感知增强具身任务规划的框架。基于多样化的数据集，我们的结果表明 GPT-4V 有效地提升了机器人在具身任务中的表现。对 LLMs 和多模态 LLMs 在各种机器人任务中的广泛调查和评估丰富了对以 LLMs 为中心的具身智能的理解，并提供了展望未来的关于人机环境交互的见解。

Jan, 2024

MMRo: 多模式 LLM 是否适合作为家用机器人的大脑？

评估多模态大型语言模型在机器人应用中的能力和可靠性，提出了第一个多模态 LLM for Robotic（MMRo）基准测试，并从感知、任务规划、视觉推理和安全度量等四个关键能力角度对现有模型的性能进行了实验评估，结果表明目前的模型还不足以信任其作为机器人的认知核心。

Jun, 2024

VisionLLM：大型语言模型也是面向视觉中心任务的开放式解码器

本篇论文提出了一种基于大型语言模型的视觉中心任务框架 VisionLLM，通过将图像视为一种外语并使用语言指令对其进行灵活定义和管理，从而统一了视觉和语言任务的视角，具有不同级别的任务定制能力，成为一种通用的视觉和语言模型。

May, 2023

ManipLLM: 对象为中心的机器人操作的具身多模态大规模语言模型

通过引入新颖的机器人操作方法，利用多模态大型语言模型（MLLMs）的强大推理能力，增强操作的稳定性和泛化能力。我们采用 fine-tuning 方法，在保留 MLLM 的常识和推理能力的同时，为其提供操作能力。实验结果表明 ManipLLM 在模拟器和真实环境中均有出色表现。

Dec, 2023

与环境对话：使用大型语言模型进行交互式多模态感知

在机器人的交互感知中，使用预先训练的大型语言模型（LLMs）作为交互感知框架，并将其应用于决策问题以及规划多模态环境中的任务执行，这样可以通过感知来指导认知行为和高层次的决策规划，这种方法可以显著提高任务完成的准确性和效率。

Mar, 2023

基于数据中心视角的高效多模态学习

通过探索更加信息丰富的训练数据，本文演示了击败规模定律并训练出更小但更强大的轻量级多模态大语言模型 Bunny，其背后利用了灵活的视觉和语言基础模块进行高效的多模态学习。

Feb, 2024

VisionLLM v2：一种适用于数百种视觉语言任务的端到端通用多模态大语言模型

VisionLLM v2 是一种端到端的多模态大型模型，它在一个框架中统一了视觉感知、理解和生成。它通过一种名为 “超级链接” 的信息传输机制连接了模型与特定任务解码器，以实现灵活的任务信息传输和梯度反馈，并在多任务场景中解决训练冲突，并通过不同的用户提示实现对多种视觉语言任务的端到端联合训练和泛化，达到与特定任务模型相当的性能。

Jun, 2024

多模式大型语言模型综述

本文旨在追踪和总结 MLLM 的最新进展，包括 MLLM 的公式，技术和应用，以及现有的挑战和有前途的研究方向。

Jun, 2023

基于深度学习的视觉 - 语言任务统一框架

通过引入 pool-adapter 模块，保留视觉嵌入的位置信息，我们的 InfMLLM 方法在图像描述、视觉问题回答和视觉定位等任务中达到了与最新的多模态大语言模型相当或超越的性能。

Nov, 2023

大规模语言模型在机器人学中的应用：一项调查

理解和评估机器人的灵活智能是一项复杂的任务，该综述回顾了大型语言模型在机器人领域的应用和对机器人控制、感知、决策制定和路径规划等关键领域的贡献，以及它们面临的潜在挑战。

Nov, 2023