图像胜千言:语言模型基于像素进行规划
本文研究了如何将自然语言指令转化为虚拟环境中可行的多步骤行动序列,通过实证表明,结合一定的视觉信息和上下文语境,GPT-2 模型能够成功地生成金标准语句执行序列,为基于语言的虚拟代理提供了强大的视觉语义规划模块。
Sep, 2020
使用大型语言模型的知识来简化控制问题,而不是直接解决它,作者提出了 Plan, Eliminate, and Track (PET) 框架,并在 AlfWorld 指令跟随基准测试中取得了显着的 15% 性能提升。
May, 2023
本研究使用大型语言模型 (Large Language Models, LLMs) 作为规划师,以完成视觉感知环境中的复杂任务的具有身体接口的代理人。研究提出了 LLM-Planner 方法进行 few-shot planning,同时提出通过物理接口增强 LLMs 的简单而有效的方法,实验结果表明该方法在 ALFRED 数据集上能够取得与使用全数据训练的基线模型相当的性能。
Dec, 2022
提出了一种新方法 ScratchPlot,使用 Pre-trained language models,利用 content planning 生成故事情节,并使用 generate-and-rank approach 对所生成的(story, ending)pairs 进行排序。实验表明,在人类评估和自动评估中都获得了更好的结果。
Jun, 2022
通过利用背景世界知识,人类能够快速学习新的行为方式。相比之下,强化学习训练的代理通常需要从零开始学习行为。因此,我们提出了一种新的方法,利用基于视觉语言模型(VLMs)的通用世界知识和可索引知识,这些模型在互联网规模的数据上进行预训练,用于实体强化学习。我们通过将 VLMs 用作可提示的表示方式来初始化策略:通过提示提供任务背景和辅助信息,这些嵌入基于视觉观察进行了接地,并编码了 VLM 的内部知识的语义特征。我们在 Minecraft 中的视觉复杂、长期的强化学习任务以及 Habitat 中的机器人导航任务上评估了我们的方法。我们发现,与从通用的非可提示图像嵌入训练的等效策略相比,我们基于通用 VLMs 提取的嵌入的训练策略表现更好。我们还发现,我们的方法优于遵循指令的方法,并与特定领域的嵌入方法效果相当。
Feb, 2024
使用自然语言处理模型,我们将标签和决策转化成基于概率图模型的推断,进而实现对语义分割、家庭导航和活动识别任务的精确预测,提高对于罕见、不常见以及结构新颖输入的预测能力。
Feb, 2023
本文论述了预训练语言模型(PLM)的重要性以及知识增强型预训练语言模型(KE-PLMs)的研究现状,探讨了 KE-PLMs 在各种 NLU 和 NLG 应用中的超越性能以及 KE-PLMs 面临的挑战和未来研究方向。
Oct, 2021
本文提出了 PlaSma,一种利用小型语言模型赋予程序化知识和(反事实的)规划能力的新方法,并介绍了计划的符号化程序知识蒸馏和推理时间算法以及一个新的任务,即对计划进行修订以应对反事实情况的 “反事实规划”,并展示了在原始和反事实情况下,规模比大的教师模型(770M-11B 参数)小几个数量级的模型可以达到甚至超越它们的能力。
May, 2023