Oct, 2023

RoboLLM: 基于多模态大型语言模型的机器人视觉任务

TL;DR通过利用多模态大语言模型(MLLMs)的预训练能力,我们介绍了 RoboLLM 框架以应对 ARMBench 挑战中的视觉感知任务,在实际仓库场景下的大规模机器人操作数据集中,RoboLLM 不仅优于现有基线方法,还大幅减少了模型选择和调优的工作量。