通过合作的语言引导逆向规划实现务实指令遵循和目标协助

Feb, 2024

通过合作的语言引导逆向规划实现务实指令遵循和目标协助

Pragmatic Instruction Following and Goal Assistance via Cooperative Language-Guided Inverse Planning

Tan Zhi-Xuan, Lance Ying, Vikash Mansinghka, Joshua B. Tenenbaum

TL;DR该研究介绍了合作语言引导的逆向计划搜索 (CLIPS)，这是一种贝叶斯代理架构，用于灵活、上下文敏感地遵循指令，提供目标协助。通过模型化人类为合作规划者，对动作和语言进行多模态贝叶斯推理，使用大型语言模型 (LLMs) 评估指令在假设计划下的可能性，辅助代理最小化预期目标达成成本，即使对目标存在不确定性，也能实现对模棱两可指令的实用跟踪和有效协助。在两个合作规划领域 (Doors, Keys & Gems 和 VirtualHome) 中评估了这些能力，发现 CLIPS 在准确性和帮助性方面明显优于 GPT-4V、基于 LLM 的字面指令跟踪和单模态逆向计划，并与人类评分者提供的推理和协助判断非常接近。

Abstract

People often give instructions whose meaning is ambiguous without further context, expecting that their actions or goals will disambiguate their intentions. How can we build assistive agents that follow such instructions in a flexible, context-sensitive manner? This paper introduces co

cooperative language-guided inverse plan search pragmatic instruction following goal assistance bayesian agent architecture context-sensitive

发现论文，激发创造

从行动和指令推断沟通代理的目标

研究了协作团队之间的自然语言指令传递在多模态贝叶斯逆向规划中的应用，发现使用语言指令可以更快、更准确地推断出团队目标，强调了语言沟通对于协作任务的重要性。

Jun, 2023

生成和跟随指令的统一语用模型

使用显式的实用推断对于复杂的序列任务生成和遵循自然语言指令是有帮助的，研究表明实用推断可以提高在不同环境下生成和理解自然语言指令的效果。

Nov, 2017

提问为前题：面向现实世界规划的积极语言代理

这篇研究论文探索了大型语言模型在用户指令理解和决策方面的潜力，并提出了一种新的任务，即主动性代理规划。通过建立一个新的基准数据集和提出一个多代理框架，研究者验证了所提出框架的有效性。

Jun, 2024

指令跟踪的目标表示：半监督语言接口控制

通过使用少量语言数据，我们提出了一种联合图像和目标条件策略的方法来解决语言指示问题，该方法获得了在不同场景下进行操作任务的指令跟随表现，并具有从标记数据中外推语言指示的能力。

Jun, 2023

可访问的指令跟随代理

UVLN (Universal Vision-Language Navigation) 是一种新颖的增强型机器翻译指令框架，利用大型语言模型（GPT3）和图像标题模型（BLIP）的新颖组合，将传统的指令跟随代理推广到多语言和低资源语言等复杂领域，将不同语言之间的对齐通过跨模态变压器，对语言指令、视觉观察和动作决策序列进行编码、捕获和传递。

May, 2023

通过情境建模和基于模型的策略学习在教学视频中进行程序规划

本文提出了一种新的过程规划公式，通过贝叶斯推论和基于模型的模仿学习，建模人类行为，从而在实际的指导视频中实现了它，证明了我们的方法可以实现达到指定目标的最先进性能的同时，学习到的上下文信息以潜在空间的形式表现出有趣的特征。

Oct, 2021

用于视觉与语言导航的说话者 - 跟随者模型

本研究提出了一种使用内置语音模型的视觉 - 语言导航方法，该方法利用演讲者模型来合成新的指令进行数据增强，并实现了实用推理和全景动作空间，大大提高了基线指令跟随者的性能，在标准基准测试中成功率超过现有最佳方法的两倍。

Jun, 2018

GoalNet: 从人类计划演示中推断出合取目标谓词，以用于机器人指令跟随

本研究旨在使机器人能够学习如何按照自然语言指示序列化其动作以执行任务，通过人类伙伴的成功演示。为了达到这个目的，我们引入了一种新颖的神经符号模型 GoalNet，它能够从人类演示和语言任务描述中推断目标谓词的上下文和任务依赖关系，并结合学习和规划以提高在多阶段任务中的决策能力。通过在一个表示语言变化的基准数据集上进行测试，我们证明了 GoalNet 在任务完成率上比现有基于规则的方法有了显著改进（51％）。

May, 2022

神经符号逆推规划引擎（NIPE）：从语言输入建模概率社交推断

论文研究了语言对社交推理的驱动和影响，提出了一种神经符号模型来从语言输入中推断行动目标，并通过人体实验验证了该模型比单纯使用大语言模型更能准确预测人类判断。

Jun, 2023

基于视觉理解规划的语言模型无需视觉输入推断详细计划

本文研究了如何将自然语言指令转化为虚拟环境中可行的多步骤行动序列，通过实证表明，结合一定的视觉信息和上下文语境，GPT-2 模型能够成功地生成金标准语句执行序列，为基于语言的虚拟代理提供了强大的视觉语义规划模块。

Sep, 2020