告诉我你在哪里:多模态 LLMs 相遇地点识别
该研究全面概述了大型语言模型(LLMs)和多模态 LLMs 在各种机器人任务中的整合,并提出了一种利用多模态 GPT-4V 结合自然语言指令和机器人视觉感知增强具身任务规划的框架。基于多样化的数据集,我们的结果表明 GPT-4V 有效地提升了机器人在具身任务中的表现。对 LLMs 和多模态 LLMs 在各种机器人任务中的广泛调查和评估丰富了对以 LLMs 为中心的具身智能的理解,并提供了展望未来的关于人机环境交互的见解。
Jan, 2024
本文通过引入 WikiTiLo 数据集,并实施两阶段的识别和推理探测任务,研究基于大规模图像 - 文本资源预训练的视觉语言模型是否能够像人类一样通过视觉线索推断图像的时间和地点,并发现 VLMs 虽然能够有效地保留视觉编码器中的相关特征,但仍然无法进行完美的推理。
Jul, 2023
在机器人的交互感知中,使用预先训练的大型语言模型(LLMs)作为交互感知框架,并将其应用于决策问题以及规划多模态环境中的任务执行,这样可以通过感知来指导认知行为和高层次的决策规划,这种方法可以显著提高任务完成的准确性和效率。
Mar, 2023
通过利用多模态大语言模型(MLLMs)的预训练能力,我们介绍了 RoboLLM 框架以应对 ARMBench 挑战中的视觉感知任务,在实际仓库场景下的大规模机器人操作数据集中,RoboLLM 不仅优于现有基线方法,还大幅减少了模型选择和调优的工作量。
Oct, 2023
通过对齐不同类型嵌入空间的方法,本研究展示了使用多模态输入改善视觉语言模型在场景理解和任务表现方面的效果,从而为多模态环境中更加多功能和有能力的语言模型铺平了道路。
Aug, 2023
一个名为 Mutually Reinforced Multimodal Large Language Model (MR-MLLM) 的新框架,通过共享查询融合机制和增强的跨模态集成方法,结合视觉感知和多模态理解,以及混合了感知信息的提示生成机制,提供更准确的多模态解释,在各种多模态理解和视觉感知任务中展现卓越性能。
Jun, 2024
利用大型语言模型(LLMs)和大型视觉语言模型(LVLMs)的能力,本研究提出了一个综合框架,模仿人类认知以实现对象目标导航问题的解决,通过关注、感知和存储任务特定信息,并生成相应计划。为了有效表示机器人周围的环境,提出使用语义丰富的 3D 场景模块化表示,并引入基于 LLM 的修剪策略以消除无关的目标特定信息。
Mar, 2024
基于大型语言模型和视觉基础模型的多模态人工智能系统在实时感知、决策和工具控制方面与人类相似,并在自动驾驶和地图系统中引起广泛关注。本文对多模态大型语言模型驱动系统的关键挑战、机会和未来工作进行了系统研究,概述了多模态大型语言模型的背景、发展以及自动驾驶的历史,并总结了在自动驾驶中使用多模态大型语言模型的工具、数据集和基准,同时介绍了第一届大型语言和视觉模型自动驾驶研讨会的相关工作,提出了使用多模态大型语言模型在自动驾驶系统中需要解决的若干重要问题,并呼吁学术界和工业界共同促进该领域的发展。
Nov, 2023
多模式大型语言模型在感知和解释任务中显示出巨大潜力,但其在预测推理方面的能力尚未得到充分探索。为填补这一空白,我们引入了一个新颖的基准测试,评估多模式大型语言模型在不同情境下的预测推理能力。我们的基准测试针对三个重要领域:抽象模式推理、人类活动预测和物理交互预测。我们进一步开发了三种由大型语言模型驱动的评估方法,以稳健地量化模型在基于多模态上下文的预测和推理未来方面的性能。经验实验证实了所提出的基准测试和评估方法的合理性,并通过严格测试揭示了当前流行的多模式大型语言模型在预测推理任务中的优缺点。最后,我们提出的基准测试为多模式大型语言模型提供了一个标准化的评估框架,并可以促进开发能够在复杂的长序列多模态输入上进行推理和预测的更先进的模型的发展。
Oct, 2023
本研究提出了 VLMaps,一种将 3D 物理世界重建与预训练的视觉语言特征直接融合的空间地图表示,其能够通过大型语言模型将自然语言命令直接转化为空间导航目标。VLMaps 能够在不需要额外标注数据的情况下自主构建,并且可以与多种类型的机器人共享,能够进行导航的同时生成新的障碍物地图。实验表明,VLMaps 可以支持人类语言含义更丰富的导航指令。
Oct, 2022