使用熵激活控制大型语言模型代理
本研究论文提出了一种新的框架,旨在提高大规模多智能体环境中大型语言模型的协调和决策能力,通过实验证明了我们提出的方法在系统资源分配和机器人网格运输方面具有显著优势。
Nov, 2023
LATS 是一种将大型语言模型(LLMs)能力融合于规划、行动和推理的通用框架,具备外部反馈的环境、超越现有技术限制的思考和适应性的问题解决机制,实现了在各种领域中的推理和行动的应用性。
Oct, 2023
从理论角度出发,研究大型语言模型在物理世界中解决决策问题的原因,通过层次化强化学习模型,证明预先训练的大型语言模型规划器通过上下文学习有效地进行贝叶斯聚合模仿学习,并引入探索策略避免线性遗憾。扩展该理论框架应用于环境的过渡模型推断和多智能体协调等场景。
May, 2024
控制大型语言模型行为的问题已成为紧迫的开放问题。在本文中,我们提出了一种称为 Activation Addition (ActAdd) 的方法,通过在推理过程中修改激活来可预测地改变模型行为,并展示了其在 GPT-2 上的应用,以及其与微调或强化学习从人类反馈中得到控制的方法相比所需的计算量和实施工作的差异。
Aug, 2023
现代大型语言模型(LLMs)在强化学习和决策中能否进行探索是我们的研究重点。我们在不进行训练干预的情况下测试现有 LLMs 的本地性能。我们将 LLMs 部署为简单的多臂赌博机环境中的代理,使用完全基于环境描述和交互历史的 LLM 提示。通过实验,我们发现模型在没有干预的情况下无法稳定地进行探索。尽管某些配置表现良好,但得出的结论是在复杂环境中,可能需要非平凡的算法干预才能使 LLMs 代理能够做出理想的决策。
Mar, 2024
大语言模型的广泛应用使得识别它们的优势和局限性变得重要。我们主张,为了全面理解这些系统,我们需要考虑它们在训练中解决的问题:互联网文本的下一个词预测。通过认识到这个任务所带来的压力,我们可以对大语言模型采用的策略进行预测,从而推断它们的成功或失败。这种方法,我们称之为目的论方法,使我们能够确定三个因素,我们假设这些因素会影响大语言模型的准确性:执行任务的概率、目标输出的概率和提供的输入的概率。我们预测,当这些概率较高时,大语言模型的准确性会更高,而当概率较低时,即使在确定性环境下,概率也不应该起作用。为了验证我们的预测,我们对两个大语言模型(GPT-3.5 和 GPT-4)进行了十一项任务的评估,我们找到了强有力的证据表明大语言模型受到我们假设的概率影响的方式。在许多情况下,实验揭示了令人惊讶的失效模式。例如,当输出是高概率单词序列时,GPT-4 解码简单密码的准确率为 51%,但当输出是低概率时,准确率为 13%。这些结果表明 AI 从业者在低概率情况下使用大语言模型时需要谨慎。更广泛地说,我们得出结论,我们不应该把大语言模型评估为人类,而应该把它们看作一类独特的系统 —— 这类系统经过了自己特定的压力塑造。
Sep, 2023
我们介绍了一种名为 ExpeL 的经验学习代理,它可以自主地收集经验并从训练任务的语料库中提取知识,通过回想其提取的洞察和过去的经验做出明智的决策,我们的实证结果突出了 ExpeL 代理的强大学习效果,并展示了其在性能上的持续增强以及迁移学习潜力。
Aug, 2023
我们的研究探索了语言代理程序的开放式行为学习,在每一次迭代中,通过修正和更新当前可用的动作,从而提高动作的有效性,实验证明,这种开放式行为学习方法显著改善了代理程序的性能,突出了经验行为学习在更智能的大型语言模型代理程序发展中的重要性。
Feb, 2024
通过构建特定于代理的数据和有监督微调模型,以及设计有效激活大型语言模型推理能力的提示方法,我们提出了一种综合的方法来提高大型语言模型作为代理的性能,并通过在 AgentBench 的五个代理任务上的评估取得了令人满意的结果。
Mar, 2024