本研究提出了『Visual Planning for Assistance (VPA)』的任务,通过视频中的行动段落和预测,使用预训练语言模型处理长时间的视频历史数据和复杂的行动依赖关系,从而使『multi-modal AI assistants』能够指导用户攻克复杂的多步骤目标。
Apr, 2023
自主驾驶中的场景理解和推理是复杂而具有挑战性的任务。本文提出了一种新颖的 Vision-Language-Planning(VLP)框架,通过利用自然语言模型来弥合语义理解和自主驾驶之间的鸿沟,从而增强自动驾驶系统的规划性能,提高在挑战性场景中的表现,以及在面对新型城市环境时的强大泛化能力。
Jan, 2024
我们介绍了一种名为 Robotic Vision-Language Planning (ViLa) 的新方法,该方法结合了视觉 - 语言模型和长期规划,通过直接整合感知数据来生成可行步骤序列,以在广泛的开放世界操纵任务中展示其优势。
Nov, 2023
提出了一种将语言模型和符号规划器相结合的新框架,通过生成语言指令和场景观察的问题描述 (PD) 来驱动符号规划器,实现语言引导的机器人规划,实验结果显示该框架能够以超过 99% 的准确率生成句法正确的问题描述和超过 58% 的准确率生成有效的机器人规划。
利用大型语言模型(LLMs)和运动规划,提出了一种模块化方法 Plan-Seq-Learn(PSL),将抽象语言和学习到的低级控制相结合,从头开始解决长期目标的机器人任务,并在超过 25 个具有挑战性的机器人任务中取得了最先进的结果。
May, 2024
本文研究了如何将自然语言指令转化为虚拟环境中可行的多步骤行动序列,通过实证表明,结合一定的视觉信息和上下文语境,GPT-2 模型能够成功地生成金标准语句执行序列,为基于语言的虚拟代理提供了强大的视觉语义规划模块。
Sep, 2020
本文研究利用预训练的语言模型(PLMs)从文本指令中推理出在具体视觉环境下的计划序列,结果表明 PLMs 能够准确地规划,且强于其他方法。
Mar, 2023
NaVid 是一个基于视频的大型视觉语言模型,通过动态的视频流输入,无需地图、测距仪和深度信息,实现了最先进水平的导航性能,解决了里程计噪声和模拟环境到真实环境之间的缺陷,同时有效地利用机器人的历史观察作为决策和指令遵循的时空背景,通过对 550k 个导航样本和 665k 个网络数据的训练,在模拟环境和真实世界中取得了非常好的性能,为导航代理和整个研究领域规划了下一步。
Feb, 2024
本文研究多模态智能领域的视觉 - 语言预训练方法,分为三类分类,包含图像 - 文本、核心计算机视觉和视频 - 文本任务,针对每类任务,提出了针对性的方法,分别探究了研究进展和存在的挑战并讨论了更先进的主题。
Oct, 2022
该研究介绍了一个多智能体框架 (GameVLM),使用预先训练的视觉语言模型 (GPT-4V) 来增强机器人任务规划中的决策过程,通过引入零和博弈理论来解决不同智能体之间的一致性问题,并得出最优解,实验证明该框架具有 83.3% 的平均成功率。