ReST meets ReAct：自我改进的多步推理 LLM Agent

Dec, 2023

ReST meets ReAct：自我改进的多步推理 LLM Agent

ReST meets ReAct: Self-Improvement for Multi-Step Reasoning LLM Agent

Renat Aksitov, Sobhan Miryoosefi, Zonglin Li, Daliang Li, Sheila Babayan...

TL;DR通过 ReAct-style LLM 代理，我们可以迭代训练一个经过改进的小模型，用于具有挑战性的组合式问答基准测试，参数数量减少了两个数量级。

Abstract

Answering complex natural language questions often necessitates multi-step reasoning and integrating external information. Several systems have combined knowledge retrieval with a large language model (LLM) to an

multi-step reasoning knowledge retrieval large language model react-style llm agent compositional question-answering

发现论文，激发创造

ReAct: 在语言模型中协同推理与行动

使用名为 ReAct 的方法，在大型语言模型中交错生成推理迹线和任务特定的操作，以促进两者之间的协作，从而在多项语言理解和决策任务中提高其有效性，同时优于缺乏推理或行为组件的方法。

Oct, 2022

强化自训练（ReST）的语言建模

ReST 是一种使用离线 RL 算法通过为 LLM 生成样本来改善其策略的简单算法，可以有效地提高机器翻译的质量和效率。

Aug, 2023

关于为主动大型语言模型提供反应提示的脆弱基础

通过对输入提示的系统变化进行敏感性分析，我们发现 LLMs 的性能受到例示 - 查询相似度的影响，并且推理能力源于近似检索，而非内在推理能力。

May, 2024

利用语言模型进行具身推理的协作

本文探究将强化学习代理人和大规模语言模型相结合，实现在复杂环境中的推理和泛化的能力，通过预训练语言模型作为规划器，简单的合成体智能作为行动器，和与规划器通信的汇报器这三部分，展示这个系统在零 - shot 泛化的任务中的表现，并且讨论了其失败情况以及组件使用增强学习的培训任务。

Feb, 2023

检索重构：大规模语言模型推理

本文提出了一种名为 'rethinking with retrieval' (RR) 的后置处理方法，借助 'chain-of-thought' (CoT) 提示中的分解推理步骤检索相关的外部知识，从而改善大语言模型在常识推理、时间推理和表格推理等方面的性能。

Dec, 2022

反射增强的自我训练语言代理

Reflection-Reinforced Self-Training (Re-ReST) leverages a reflection model to refine low-quality samples and augment self-training, enhancing the quality of samples efficiently.

Jun, 2024

面向基于文本的教育环境的通用智能体: RL 与 LLMs 的整合研究

通过将强化学习与大型语言模型结合，研究了在开放性文本学习环境中增强代理的泛化能力，提出了三种代理类型：基于强化学习的代理、基于大型语言模型的代理和融合两者的混合代理，以提高代理的性能和泛化能力，并通过 PharmaSimText 提供的基准测试验证了研究成果。结果表明，基于强化学习的代理在任务完成方面表现出色，但在提问诊断问题方面有所欠缺；相反，基于大型语言模型的代理在提问诊断问题方面表现较好，但在完成任务方面表现较差；而混合的大型语言模型辅助强化学习代理能够克服这些限制，凸显了将强化学习和大型语言模型相结合在开放性学习环境中开发高性能代理的潜力。

Apr, 2024

物理集成迭代建模的领域专用反应：燃气涡轮气道分析中 LLM 代理的案例研究

本研究探讨了在能源和电力工程领域中使用大型语言模型（LLMs）与可调用工具进行研究，并重点关注燃气轮机的燃气通道分析。我们开发了双代理工具调用过程，以整合专家知识、预定义工具和 LLM 推理。我们评估了包括 LLama3、Qwen1.5 和 GPT 在内的各种 LLMs。较小的模型在工具使用和参数提取方面存在困难，而较大的模型展示了较好的能力。所有模型都面临着复杂、多组分问题的挑战。基于测试结果，我们推测具有近 1000 亿参数的 LLMs 可以通过精调和先进的提示设计满足专业场景需求。持续的发展可能提高其准确性和效果，为更强大的基于人工智能的解决方案铺平道路。

Jun, 2024

基于 LLM 的多智能体强化学习：当前和未来方向

近年来，大型语言模型在问题回答、算术问题解决和诗歌创作等各种任务中展示了强大的能力。尽管关于以大型语言模型为代理的研究表明它可以应用于强化学习并取得不错的结果，但将基于大型语言模型的强化学习扩展到多智能体系统并不容易，因为许多方面，如智能体之间的协调和通信，在单智能体的强化学习框架中没有得到考虑。为了激发更多关于基于大型语言模型的多智能体强化学习的研究，本文调查了现有的基于大型语言模型的单智能体和多智能体强化学习框架，并提供了未来研究的潜在方向。特别关注多智能体共同目标合作任务和它们之间的通信，还考虑了语言组件在框架中实现的人机交互场景。

May, 2024

迈向高效的 LLM 对实体多智能体协作的隶属

通过引入增强优势反馈（ReAd）的多智能体协作模型，我们提出了一种新的用于解决复杂物理世界中大型语言模型（LLMs）推理能力的框架，该框架通过对 LLM 计划数据进行评论回归来学习顺序优势函数，并将 LLM 规划器视为最优化器生成最大化优势函数的行动，从而为 LLM 赋予了能够判断行动是否有助于完成最终任务的远见。

May, 2024