预训练语言模型作为人类辅助的视觉规划器

Apr, 2023

预训练语言模型作为人类辅助的视觉规划器

Pretrained Language Models as Visual Planners for Human Assistance

Dhruvesh Patel, Hamid Eghbalzadeh, Nitin Kamra, Michael Louis Iuzzolino, Unnat Jain...

TL;DR本研究提出了『Visual Planning for Assistance (VPA)』的任务，通过视频中的行动段落和预测，使用预训练语言模型处理长时间的视频历史数据和复杂的行动依赖关系，从而使『multi-modal AI assistants』能够指导用户攻克复杂的多步骤目标。

Abstract

To make progress towards multi-modal ai assistants which can guide users to achieve complex multi-step goals, we propose the task of Visual Planning for Assistance (VPA). Given a goal briefly described in natural language, e.g., "make a shelf", and a video of the user's progress so far

multi-modal ai assistants visual planning for assistance video action segmentation multi-modal sequence modeling visual language model based planner

发现论文，激发创造

视频语言规划

我们介绍了视频语言规划（VLP）算法，利用在互联网规模数据上预训练的大型生成模型，通过在生成视频和语言空间中进行可视化规划来完成复杂的长期任务，通过针对多模态（视频和语言）进行详细规划来描述如何完成最终任务，进一步通过目标条件策略将生成的视频转化为真实的机器人行动。

Oct, 2023

基于视觉理解规划的语言模型无需视觉输入推断详细计划

本文研究了如何将自然语言指令转化为虚拟环境中可行的多步骤行动序列，通过实证表明，结合一定的视觉信息和上下文语境，GPT-2 模型能够成功地生成金标准语句执行序列，为基于语言的虚拟代理提供了强大的视觉语义规划模块。

Sep, 2020

审慎行事：揭示 GPT-4V 在机器人视觉语言规划中的能量

我们介绍了一种名为 Robotic Vision-Language Planning (ViLa) 的新方法，该方法结合了视觉 - 语言模型和长期规划，通过直接整合感知数据来生成可行步骤序列，以在广泛的开放世界操纵任务中展示其优势。

Nov, 2023

跨越语言、视觉和行动：多模态 VAEs 在机器人操作任务中的应用

我们关注机器人操作中无监督的视觉 - 语言 - 行为映射，探索多模态变分自编码器在无监督机器人操作任务中的应用，并提出一种模型不变训练方法，成功提高模型在模拟环境中的性能，并对个体任务的挑战进行了系统评估，揭示了当前多模态变分自编码器在基于视觉和语言的无监督机器人运动轨迹学习中的潜在优势和限制。

Apr, 2024

图像胜千言：语言模型基于像素进行规划

本文研究利用预训练的语言模型（PLMs）从文本指令中推理出在具体视觉环境下的计划序列，结果表明 PLMs 能够准确地规划，且强于其他方法。

Mar, 2023

视觉语言行为模型在具身人工智能中的调查

综合调查了深度学习、多模态模型、视觉 - 语言 - 动作模型、具身人工智能的快速发展。

May, 2024

通过预测分配来建立视觉和语言空间的桥梁

该论文介绍了 VLAP（pretrained vision models 和 large language models 之间的视觉理解的桥梁），通过一种新颖的方法，将预训练的视觉模型的嵌入空间转化为大规模语言模型的词嵌入空间，从而有效且通用地实现视觉和语言的理解。

Apr, 2024

通过动态视觉提示将预训练语言模型应用于视觉语言任务

本文旨在研究使用预训练语言模型（Pre-trained language models，PLMs）作为一个独立的模型来进行视觉语言推理任务。提出了一个名为 Dynamic Visual Prompting（DVP）的新型转移学习方法，通过搜索算法，在保持 PLMs 参数完整性的情况下，有效地将其与不同的视觉语言任务相结合。经过广泛的实验验证，DVP 在效率和性能方面都具有优势，并且能够很好地适应预训练语言模型与 VL 任务相结合的需求。

Jun, 2023

机器人任务规划的视觉语言解释器

提出了一种将语言模型和符号规划器相结合的新框架，通过生成语言指令和场景观察的问题描述 (PD) 来驱动符号规划器，实现语言引导的机器人规划，实验结果显示该框架能够以超过 99% 的准确率生成句法正确的问题描述和超过 58% 的准确率生成有效的机器人规划。

Nov, 2023

基于 Transformer 的视觉引导规划在程序化任务中的应用

使用人类决策过程的教学视频培训模型，学习从视频中直接生成可规划结构的状态和行动空间，并使用 Planning Transformer 解决了长期决策的复杂性问题，并通过实验证明了其在达到目标方面的良好性能表现。

Sep, 2021