视频语言规划

Oct, 2023

Video Language Planning

Yilun Du, Mengjiao Yang, Pete Florence, Fei Xia, Ayzaan Wahid...

TL;DR我们介绍了视频语言规划（VLP）算法，利用在互联网规模数据上预训练的大型生成模型，通过在生成视频和语言空间中进行可视化规划来完成复杂的长期任务，通过针对多模态（视频和语言）进行详细规划来描述如何完成最终任务，进一步通过目标条件策略将生成的视频转化为真实的机器人行动。

Abstract

We are interested in enabling visual planning for complex long-horizon tasks in the space of generated videos and language, leveraging recent advances in large generative models pretrained on Internet-scale data.

visual planning video language planning generative models multimodal specifications long-horizon task

发现论文，激发创造

预训练语言模型作为人类辅助的视觉规划器

本研究提出了『Visual Planning for Assistance (VPA)』的任务，通过视频中的行动段落和预测，使用预训练语言模型处理长时间的视频历史数据和复杂的行动依赖关系，从而使『multi-modal AI assistants』能够指导用户攻克复杂的多步骤目标。

Apr, 2023

自动驾驶的视觉语言规划

自主驾驶中的场景理解和推理是复杂而具有挑战性的任务。本文提出了一种新颖的 Vision-Language-Planning（VLP）框架，通过利用自然语言模型来弥合语义理解和自主驾驶之间的鸿沟，从而增强自动驾驶系统的规划性能，提高在挑战性场景中的表现，以及在面对新型城市环境时的强大泛化能力。

Jan, 2024

审慎行事：揭示 GPT-4V 在机器人视觉语言规划中的能量

我们介绍了一种名为 Robotic Vision-Language Planning (ViLa) 的新方法，该方法结合了视觉 - 语言模型和长期规划，通过直接整合感知数据来生成可行步骤序列，以在广泛的开放世界操纵任务中展示其优势。

Nov, 2023

机器人任务规划的视觉语言解释器

提出了一种将语言模型和符号规划器相结合的新框架，通过生成语言指令和场景观察的问题描述 (PD) 来驱动符号规划器，实现语言引导的机器人规划，实验结果显示该框架能够以超过 99% 的准确率生成句法正确的问题描述和超过 58% 的准确率生成有效的机器人规划。

Nov, 2023

Plan-Seq-Learn: 语言模型引导强化学习解决长时程机器人任务

利用大型语言模型（LLMs）和运动规划，提出了一种模块化方法 Plan-Seq-Learn（PSL），将抽象语言和学习到的低级控制相结合，从头开始解决长期目标的机器人任务，并在超过 25 个具有挑战性的机器人任务中取得了最先进的结果。

May, 2024

基于视觉理解规划的语言模型无需视觉输入推断详细计划

本文研究了如何将自然语言指令转化为虚拟环境中可行的多步骤行动序列，通过实证表明，结合一定的视觉信息和上下文语境，GPT-2 模型能够成功地生成金标准语句执行序列，为基于语言的虚拟代理提供了强大的视觉语义规划模块。

Sep, 2020

图像胜千言：语言模型基于像素进行规划

本文研究利用预训练的语言模型（PLMs）从文本指令中推理出在具体视觉环境下的计划序列，结果表明 PLMs 能够准确地规划，且强于其他方法。

Mar, 2023

基于视频的 VLM 为视觉与语言导航规划下一步

NaVid 是一个基于视频的大型视觉语言模型，通过动态的视频流输入，无需地图、测距仪和深度信息，实现了最先进水平的导航性能，解决了里程计噪声和模拟环境到真实环境之间的缺陷，同时有效地利用机器人的历史观察作为决策和指令遵循的时空背景，通过对 550k 个导航样本和 665k 个网络数据的训练，在模拟环境和真实世界中取得了非常好的性能，为导航代理和整个研究领域规划了下一步。

Feb, 2024

视觉 - 语言预训练：基础、最新进展和未来趋势

本文研究多模态智能领域的视觉 - 语言预训练方法，分为三类分类，包含图像 - 文本、核心计算机视觉和视频 - 文本任务，针对每类任务，提出了针对性的方法，分别探究了研究进展和存在的挑战并讨论了更先进的主题。

Oct, 2022

GameVLM：基于视觉语言模型和零和博弈的机器人任务规划决策框架

该研究介绍了一个多智能体框架 (GameVLM)，使用预先训练的视觉语言模型 (GPT-4V) 来增强机器人任务规划中的决策过程，通过引入零和博弈理论来解决不同智能体之间的一致性问题，并得出最优解，实验证明该框架具有 83.3% 的平均成功率。

May, 2024