HuBo-VLM:为人机交互任务设计的统一视觉语言模型
利用视觉语言模型(VLMs)进行机器人操纵的研究提出了一种新的范式,旨在增强模型对新对象和指令的推广能力。为解决摄像机规格和安装位置的变化带来的性能差异,该研究提出了 RoboUniView 方法,该方法从多个视角学习统一的视图表示,并从该表示中得出操纵机器人的动作。该统一的视图表示更准确地反映了物理世界,不受机器人平台摄像机参数的限制,并在 CALVIN 基准测试中获得了最先进的性能,将成功率从 88.7%提高到 96.2%。此外,该模型还表现出卓越的适应性和灵活性:它在未知摄像机参数下保持高性能,可以利用具有不同摄像机参数的多个数据集,并能够在数据集之间进行联合多任务学习。研究代码已提供以供重新实现。
Jun, 2024
通过利用多模态大语言模型(MLLMs)的预训练能力,我们介绍了 RoboLLM 框架以应对 ARMBench 挑战中的视觉感知任务,在实际仓库场景下的大规模机器人操作数据集中,RoboLLM 不仅优于现有基线方法,还大幅减少了模型选择和调优的工作量。
Oct, 2023
通过对齐不同类型嵌入空间的方法,本研究展示了使用多模态输入改善视觉语言模型在场景理解和任务表现方面的效果,从而为多模态环境中更加多功能和有能力的语言模型铺平了道路。
Aug, 2023
DriveVLM 是一种利用 Vision-Language Models(VLMs)进行场景理解和规划的自动驾驶系统,通过一系列思维链模块实现场景描述、分析和层次规划,并提出了 DriveVLM-Dual 作为一种混合系统以解决 VLMs 在空间推理和计算需求上的限制,实现了稳健的空间理解和实时推理速度,通过对 nuScenes 数据集和 SUP-AD 数据集的广泛实验,证明了 DriveVLM 和 DriveVLM-Dual 在复杂和不可预测的驾驶条件下的有效性和增强性能。
Feb, 2024
利用大型语言模型和视觉语言模型,我们的研究致力于解决数字助理执行各种用户任务的挑战,特别是在基于指令的移动设备控制领域。通过与用户界面进行交互,我们的模型利用设备屏幕的视觉输入并模拟人类般的交互,包括点击和滑动等手势。这种输入和输出空间的广泛适用性使得我们的代理能够与设备上的任何应用程序进行交互。与以往方法不同的是,我们的模型不仅仅操作单个屏幕图像,还通过过去截图序列和相应操作生成视觉语言句子。在具有挑战性的 “Android in the Wild” 基准测试中评估我们的方法表明其有效性和潜力。
Apr, 2024
提出了一种基于视觉 - 语言多模态转换器的方法,通过从场景中提取视觉线索、用户的语言命令和对先前物体之间的交互的知识,识别和主动预测用户打算实现的潜在目标,并在适当的情况下主动建议任务,从而改进人机协作的直观程度。
Oct, 2023
通过对开放源代码的视觉 - 语言模型进行简单微调,RoboFlamingo 构建了一个简单而新颖的视觉 - 语言操控框架,并利用单步视觉 - 语言理解的预训练模型、显式策略推测历史信息,通过模仿学习在以语言为条件的操纵数据集上微调。通过在基准测试上超过最先进的性能,表明 RoboFlamingo 能够有效并具有竞争力地将 VLM 适应到机器人控制中,为机器人操作提供了一种具有潜力的经济高效和易于使用的解决方案。
Nov, 2023
我们提出了 MobileVLM,这是一个专为移动设备设计的多模式视觉语言模型(MMVLM)。它集成了各种移动设备定向的架构设计和技术,包括一组从头训练的 1.4B 和 2.7B 参数规模的语言模型,以及使用 CLIP 风格预训练的多模式视觉模型,通过高效的投影实现跨模态交互。我们在几个典型的 VLM 基准测试上评估了 MobileVLM。与一些更大的模型相比,我们的模型表现出与之相当的性能。更重要的是,我们在高通骁龙 888 CPU 和 NVIDIA Jeston Orin GPU 上测量了推断速度,分别获得了 21.5 个 token 和 65.3 个 token 每秒的最新性能。我们的代码将在此 https URL 上提供。
Dec, 2023
我们介绍了一种名为 Robotic Vision-Language Planning (ViLa) 的新方法,该方法结合了视觉 - 语言模型和长期规划,通过直接整合感知数据来生成可行步骤序列,以在广泛的开放世界操纵任务中展示其优势。
Nov, 2023
利用大型语言模型和视觉语言模型,提出基于语言的意图跟踪(LIT)方法,用于预测人类用户的下一个意图以引导机器人进行主动的协作,实现长期协作任务中机器人和人类用户之间的顺畅协调。
Jun, 2024