PIVOT：迭代式视觉提示为 VLMs 引发可采取行动的知识

Feb, 2024

PIVOT：迭代式视觉提示为 VLMs 引发可采取行动的知识

PIVOT: Iterative Visual Prompting Elicits Actionable Knowledge for VLMs

Soroush Nasiriany, Fei Xia, Wenhao Yu, Ted Xiao, Jacky Liang...

TL;DR提出一种名为 PIVOT 的新型视觉提示方法，将任务视为迭代式视觉问答，并探索其在机器人控制、空间推理等领域的应用，展示了在没有机器人训练数据的情况下，其能够实现零样本控制和在各种环境中进行导航等功能。

Abstract

vision language models (VLMs) have shown impressive capabilities across a variety of tasks, from logical reasoning to visual understanding. This opens the door to richer interaction with the world, for example robotic c

vision language models prompting with iterative visual optimization robotic control continuous coordinates zero-shot control

发现论文，激发创造

PIVOT: 视频连续学习提示

本文介绍一种基于 PIVOT 的新方法，该方法使用预训练模型中的知识，从而减少可训练参数的数量和相关遗忘。与先前的方法不同的是，我们的方法是第一种有效使用提示机制进行继续学习且无需领域内预训练的方法。我们的实验表明，PIVOT 方法在 20 个任务 ActivityNet 设置上的表现提高了 27％，从而改进了现有方法。

Dec, 2022

RoboPoint：机器人的空间可行性预测的视觉语言模型

我们介绍了一个自动的合成数据生成流水线，用于调整机器人领域和需求中的视觉语言模型，并通过该流水线训练了 RoboPoint，该模型可以根据语言指令预测图像关键点的可行性。与其他方法相比，我们的方法无需真实世界数据收集或人类示范，使得它在适应多样环境和视点方面具有更大的可扩展性。此外，RoboPoint 是一个通用模型，可以用于机器人导航、操作和增强现实（AR）辅助等多个下游应用。我们的实验证明，RoboPoint 在预测空间可行性的准确性上比最先进的 VLMs（GPT-4o）和视觉提示技术（PIVOT）提高了 21.8％，在下游任务的成功率上提高了 30.5％。

Jun, 2024

DKPROMPT：领域知识引导视觉 - 语言模型进行开放世界规划

本研究提出了一种名为 DKPROMPT 的新型任务规划与执行框架，通过在 PDDL 中使用领域知识自动化 VLM 提示，实现在开放世界中进行经典规划，结果显示 DKPROMPT 在任务完成率方面优于传统规划、纯 VLM 和其他几个竞争基线。

Jun, 2024

通过动态视觉提示将预训练语言模型应用于视觉语言任务

本文旨在研究使用预训练语言模型（Pre-trained language models，PLMs）作为一个独立的模型来进行视觉语言推理任务。提出了一个名为 Dynamic Visual Prompting（DVP）的新型转移学习方法，通过搜索算法，在保持 PLMs 参数完整性的情况下，有效地将其与不同的视觉语言任务相结合。经过广泛的实验验证，DVP 在效率和性能方面都具有优势，并且能够很好地适应预训练语言模型与 VL 任务相结合的需求。

Jun, 2023

VIMA: 多模态提示的通用机器人操作

使用多模态提示设计了一个基于转换器的通用机器人代理 (VIMA)，可以表达多种机器人操作任务，且在新颖的零激励泛化情况下优于先前的状态最优方法。

Oct, 2022

利用 LLMs 自动化零射视觉识别的元提示

通过 Meta-Prompting for Visual Recognition (MPVR) 方法，仅凭目标任务的简短自然语言描述和相关类别标签的最小信息输入，自动产生一组多样的类别特定提示，从而实现强大的零样本分类器。在多个不同领域的流行的零样本图像识别基准上，使用多个 LLMs 和 VLMs 测试，MPVR 可以有效地推广，比 CLIP 提高了最高 19.8％和 18.2％（平均 20 个数据集上分别为 5.0％和 4.5％），依赖于 GPT 和 Mixtral LLMs。

Mar, 2024

ROSGPT_Vision：仅使用语言模型提示来指挥机器人

通过使用语言模型提示，我们提出了新一代机器人可以通过使用机器人模态语言模型（MLM）单独独立地与特定的机器人模态进行通信。一个中央任务模态通过大型语言模型（LLM）中介整个通信过程以执行机器人任务。我们将这种新的机器人设计模式命名为 Prompting Robotic Modalities（PRM），并在一个新的机器人框架 ROSGPT_Vision 中应用了这种 PRM 设计模式。ROSGPT_Vision 通过仅使用两个提示（一个视觉提示和一个 LLM 提示）来执行机器人任务，实现了处理视觉数据、做出明智决策和自动执行操作的能力。

Aug, 2023

通过预训练和多任务微调掌握多模态机器人操作

通过引入一个有效的框架，从多任务的专家轨迹中学习使用多模式提示进行机器人操作，我们在 VIMA-BENCH 上评估了方法的功效，并建立了一个新的最先进水平（成功率提高了 10%）。此外，我们还展示了我们的模型具有显著的情境学习能力。

Oct, 2023

为什么只用文本：用多模态提示增强视觉与语言导航

Vision-and-Language Navigation with Multi-modal Prompts (VLN-MP) integrates natural language and images in instructions, showing improved navigation performance through the use of multi-modal and visual prompts.

Jun, 2024

文本到图像生成中的图像引导的提示优化

将用户提供的自然语言提示自动精炼为系统偏好的关键词提示，对于文本到图像生成的用户体验至关重要。本研究提出了 Prompt Refinement with Image Pivot (PRIP) 方法，通过使用用户偏好图像的潜在表示作为用户和系统语言之间的中介，将精炼过程分解为从用户语言推断出用户偏好图像表示，然后将图像表示转化为系统语言的两个数据丰富任务，从而利用丰富的训练数据。大量实验证明 PRIP 明显优于多种基准方法，并能以零 - shot 方式有效迁移到未见过的系统。

Jun, 2024