面向未来的原因，立即行动：可证明样本效率的自主 LLM 代理的原则框架

Sep, 2023

面向未来的原因，立即行动：可证明样本效率的自主 LLM 代理的原则框架

Reason for Future, Act for Now: A Principled Framework for Autonomous LLM Agents with Provable Sample Efficiency

Zhihan Liu, Hao Hu, Shenao Zhang, Hongyi Guo, Shuqi Ke...

TL;DR认知大型语言模型（LLM）中，设计了一个名为 “为未来推理，为现在采取行动” 的框架（RAFA），通过在 LLMs 中结合学习和规划的过程，可以在最小交互次数内极大地提高推理能力，并在多个基准测试中得到了近乎完美的分数。

Abstract

large language models (LLMs) demonstrate impressive reasoning abilities, but translating reasoning into actions in the real world remains

large language models reasoning acting framework regret guarantees

发现论文，激发创造

大型语言模型与具备心智理论的智能体相距多远？

人类可以从观察中推断他人的心理状态，然后从实用角度出发对这些推断进行干预。针对大型语言模型（LLMs）的新的评估范式 ——Thinking for Doing（T4D）要求模型将对他人心理状态的推断与社交情境中的行动联系起来。我们提出了一种零样本提示框架 ——Foresee and Reflect（FaR），该框架能够鼓励 LLMs 预测未来的挑战并合理推断潜在行动，从而提高 GPT-4 在 T4D 上的性能。

Oct, 2023

对话式语言模型的推理即世界模型的规划

本文介绍了基于 Monte Carlo 搜索算法的新型大语言模型推理框架 RAP，利用其上的世界模型进行计划生成和复杂推理。从多个任务测试中，RAP 在效率和准确率上都超过了 Chain-of-Thought 等现有方案。

May, 2023

从词语到行动：揭示 LLM 驱动的自主系统的理论基础

从理论角度出发，研究大型语言模型在物理世界中解决决策问题的原因，通过层次化强化学习模型，证明预先训练的大型语言模型规划器通过上下文学习有效地进行贝叶斯聚合模仿学习，并引入探索策略避免线性遗憾。扩展该理论框架应用于环境的过渡模型推断和多智能体协调等场景。

May, 2024

ReAct: 在语言模型中协同推理与行动

使用名为 ReAct 的方法，在大型语言模型中交错生成推理迹线和任务特定的操作，以促进两者之间的协作，从而在多项语言理解和决策任务中提高其有效性，同时优于缺乏推理或行为组件的方法。

Oct, 2022

ActionReasoningBench: 研究带有或不带有约束的动作推理

对于动态环境、互动场景和常识推理等任务，大型语言模型在对行为和变化的推理方面面临着重要的挑战，因此引入了一个新的 ActionReasoningBench 基准来评估大型语言模型在行为和变化推理的八个不同领域上的性能。我们的结果表明，这些模型在基准中的所有类别都面临着重大挑战。

Jun, 2024

结合长期未来的强化学习动力学模型学习

本文着重于构建一个具有考虑长期未来的模型，并展示如何利用它进行有效规划和探索，通过搜寻模型下的不可能轨迹来设计探索策略，并在两种学习环境中取得了比基线更快更高报酬的效果。

Mar, 2019

关于为主动大型语言模型提供反应提示的脆弱基础

通过对输入提示的系统变化进行敏感性分析，我们发现 LLMs 的性能受到例示 - 查询相似度的影响，并且推理能力源于近似检索，而非内在推理能力。

May, 2024

迈向高效的 LLM 对实体多智能体协作的隶属

通过引入增强优势反馈（ReAd）的多智能体协作模型，我们提出了一种新的用于解决复杂物理世界中大型语言模型（LLMs）推理能力的框架，该框架通过对 LLM 计划数据进行评论回归来学习顺序优势函数，并将 LLM 规划器视为最优化器生成最大化优势函数的行动，从而为 LLM 赋予了能够判断行动是否有助于完成最终任务的远见。

May, 2024

ReST meets ReAct：自我改进的多步推理 LLM Agent

通过 ReAct-style LLM 代理，我们可以迭代训练一个经过改进的小模型，用于具有挑战性的组合式问答基准测试，参数数量减少了两个数量级。

Dec, 2023

更多询问，更深了解：基于大语言模型的增强学习问句在决策制定中的应用

利用领导者 - 追随者双层框架，本文实现了一个完全集成的端到端框架，用于处理复杂的推理任务，并通过引入历史发现为生成合适的问题（提示）提供指导，进而指导行动学习。

Oct, 2023