解锁未来：探索大型语言模型的先见规划机制解释性

Jun, 2024

解锁未来：探索大型语言模型的先见规划机制解释性

Unlocking the Future: Exploring Look-Ahead Planning Mechanistic Interpretability in Large Language Models

Tianyi Men, Pengfei Cao, Zhuoran Jin, Yubo Chen, Kang Liu...

TL;DR我们研究了大型语言模型中的预测规划机制，通过分析信息流和内部表示的角度，我们发现多层感知器和多头自注意力组件在最后一个标记上的输出可以直接解码决策，在信息流方面，我们揭示了多头自注意力主要提取目标状态和最近步骤的范围内的信息，我们进一步探索了这些信息的编码方式，并展示了中间和上层在成功规划时在一定程度上编码了一些短期未来决策，这项研究有助于未来在大型语言模型执行规划任务方面的研究。

Abstract

planning, as the core module of agents, is crucial in various fields such as embodied agents, web navigation, and tool using. With the development of large language models (LLMs), some researchers treat large language m

planning large language models look-ahead planning mechanism information flow decision encoding

发现论文，激发创造

理解 LLM 智能体的规划：一项调查

将大型语言模型作为自主代理的规划模块，通过提供现有作品的分类和全面分析，讨论了任务分解、计划选择和外部模块等方向在 LLM-Agent 规划中的进展和挑战。

Feb, 2024

大型语言模型的规划能力 - 一项关键调查

本文旨在研究 LLLms 在常识规划任务中的规划能力，通过在国际计划竞赛中生成一系列实例，并评估 LLMs 在自主规划和启发式两种不同模式下的表现，发现 LLMs 在自主规划方面的表现非常有限，但在启发式模式下，LLMs 生成的计划可以改善其它智能计划器的搜索过程并提供反馈以进一步验证计划质量。

May, 2023

从词语到行动：揭示 LLM 驱动的自主系统的理论基础

从理论角度出发，研究大型语言模型在物理世界中解决决策问题的原因，通过层次化强化学习模型，证明预先训练的大型语言模型规划器通过上下文学习有效地进行贝叶斯聚合模仿学习，并引入探索策略避免线性遗憾。扩展该理论框架应用于环境的过渡模型推断和多智能体协调等场景。

May, 2024

理解大型语言模型在自动化规划方面的能力

该研究旨在探讨大型语言模型在自动计划中的应用，研究包括使用何种预训练数据最有效、微调或提示哪种方法最有效以及大型语言模型能否进行计划综合。

May, 2023

关于大型语言模型的规划能力（一项带有提议基准的关键调查）

研究了通用 Web 语料库上训练的语言模型的计划能力，开发了基于国际计划竞赛领域的基准套件，在自治、启发式和人机协作模式下对 LLM 进行了评估，发现自主生成可执行计划的能力非常有限，只有约 3% 的成功率。

Feb, 2023

从人类行为角度探索语言模型

基于人类行为学视角，我们探究了大型语言模型（LLMs）的预测过程和内部机制，通过将 LLMs 的值与眼动测量结果相关联，发现 LLMs 表现出与基于 RNN 的语言模型不同的预测模式。此外，随着前馈网络（FFN layers）的升级，记忆和语言知识编码的能力也逐渐提升直至达到巅峰，并转向注重理解能力。自注意力机制的功能分布在多个头部。最后，我们审查了门控机制，发现它们控制信息的流动，有些门控机制促进信息的传递，而其他门控机制则消除信息。

Oct, 2023

大规模语言模型的前额叶皮质启发式规划结构

通过人脑与 GPT-4 模块的互动，该研究提出了一个黑盒架构，利用认知神经科学的知识来改进 LLMs 的规划能力，从而在多步推理和目标导向规划等任务中取得了显著的改善。

Sep, 2023

提问为前题：面向现实世界规划的积极语言代理

这篇研究论文探索了大型语言模型在用户指令理解和决策方面的潜力，并提出了一种新的任务，即主动性代理规划。通过建立一个新的基准数据集和提出一个多代理框架，研究者验证了所提出框架的有效性。

Jun, 2024

探索和基准测试大型语言模型的规划能力

提高大型语言模型的规划能力，研究领域包括基于上下文学习、微调，以及在未知领域的性能评估。

Jun, 2024

评估和开发面向 LLMs 的规划感知技术

基于最近的研究，我们通过实验表明，大语言模型（LLMs) 缺乏规划所需的必要技能。基于这些观察，我们提倡将 LLMs 与经典规划方法相结合的混合方法的潜力。然后，我们引入了一种新颖的混合方法 SimPlan，并在一个新的具有挑战性的环境中评估其性能。我们在各种规划领域进行了大量实验，结果表明 SimPlan 明显优于现有的基于 LLMs 的规划器。

Feb, 2024