通过层次化代理模型和知识蒸馏,将大型语言模型的性能通过转移学习到小型语言模型,在科学世界的多任务交互文本环境中胜过其他大型语言模型方法,从而提高了效率。
May, 2024
本研究提出了一种新方法,利用大型语言模型(LLM)的规划能力,为没有环境转换动力学访问权限的强化学习代理提供子目标的图形表示,同时最小化环境交互次数。
Oct, 2023
提出一种名为 SEGO 的新框架,通过建立子目标分解过程与解决问题的概率之间的联系,优化大型语言模型在数学问题求解中的能力,实验证明 SEGO 的有效性并超越以往方法。
使用 Lean 等计算机可验证形式语言来证明数学定理具有重大影响,本文提出了 TheoremLlama 框架,通过生成对齐的数据集和训练方法,使大型语言模型成为 Lean4 专家,实现了高于 GPT-4 基准的累积准确率。
Jul, 2024
基于大规模合成数据,使用 Lean 4 proof 数据生成方法,我们的模型在定理生成和解决题目方面取得了卓越的成果,证明了合成数据对提高 LLMs 中的定理证明能力的潜力。
提出一种新的强化学习(Reinforcement Learning)模型,具有可解释性且支持深层次子目标(subgoal hierarchies)的发现。该模型使用概率规则学习有关环境的信息,而(子)目标的策略则是它们的组合。学习无需奖励函数,只需提供主要目标,而目标的子目标被计算为状态的描述,如果先前达成这些描述,便可提高给定目标的可用策略的总效率。这些状态描述通过引入新的传感器谓词来加入代理的规则语言中,从而允许传感到重要的中间状态并相应地更新环境规则和策略。
Feb, 2022
该研究探讨了最新的大型语言模型(LLMs)是否能够帮助将人类解释转化为能够支持从演示中稳定学习线性时间逻辑(LTL)的格式。我们提出了一种将 LLMs 和基于优化的方法结合的方法,用于忠实地将人类解释和演示转化为 LTL 规范。通过几个案例研究,我们的实验证明了将解释与演示相结合在学习 LTL 规范方面的有效性。
Apr, 2024
本文探讨了预训练的大型语言模型在预测现实世界环境中可行的计划方面的能力,表明预先训练的语言模型中的语言优先级允许我们推断出细粒度的子目标序列,并提出了一种通过环境的交互和反馈重新排列语言模型预测的简单策略,结合预先训练的导航和视觉推理组件在 ALFRED 基准测试中表现优秀。
May, 2022
提出了一种分而治之的方法,利用 Subgoal Discovery Network 将复杂目标定向任务分解为一组较简单的子目标,并使用这些子目标通过分层强化学习来学习多级策略,建立了对话代理程序,已应用于旅行计划中,其学习到的子目标通常易于被人理解。
Apr, 2018
我们提出了一种新颖的方法,利用人类在 3D 实体环境中解决任务时使用的无约束自然语言数据,通过软约束目标空间,对一组长期任务进行层次强化学习,从而实现在现实或开放环境中实现目标导向行为的挑战。
Sep, 2023