本文介绍了一个基于小目标的证明学习框架和扩散模型,成功地将证明的正确率从 38.9%提高到 45.5%,或者比长期的最先进方法提高了 5 倍的采样效率。
May, 2023
通过引入自主的探索策略,该研究首次将大型语言模型应用于各种组合问题,表明自主探索策略在组合问题的优化性能上超过现有的提示策略 27.84%。此外,在算术、常识和符号推理等其他推理任务中,自主探索策略的准确性也比现有方法高 2.46%。
May, 2024
本研究提出了一种新方法,利用大型语言模型(LLM)的规划能力,为没有环境转换动力学访问权限的强化学习代理提供子目标的图形表示,同时最小化环境交互次数。
Oct, 2023
通过使用大型语言模型的预测能力,我们引入了 LaGR(语言引导的强化学习)和 SEQ(样本高效查询)两个框架,用于在部分完成的任务中提出解决方案,并同时降低对语言模型的查询次数,从而更高效地进行主要强化学习训练。
Aug, 2023
通过自适应子目标树将高级目标细分为实用的子目标,自我目标(SelfGoal)显著提高了语言代理在竞争性、合作性和延迟反馈环境中的性能。
Jun, 2024
利用大型语言模型(LLMs)和运动规划,提出了一种模块化方法 Plan-Seq-Learn(PSL),将抽象语言和学习到的低级控制相结合,从头开始解决长期目标的机器人任务,并在超过 25 个具有挑战性的机器人任务中取得了最先进的结果。
GOAL 是一种通用模型,基于机器学习启发式算法,能够高效地解决多种复杂组合优化问题,并且具有强大的迁移学习能力。
本研究提出了一种新的分解任务和子目标分配的决策方法 --SAMA。SAMA 使用预训练的语言模型,结合语言基础强化学习来训练子目标条件策略,相较于现有的 ASG 方法,SAMA 具有更高的样本效率。
本文探讨了预训练的大型语言模型在预测现实世界环境中可行的计划方面的能力,表明预先训练的语言模型中的语言优先级允许我们推断出细粒度的子目标序列,并提出了一种通过环境的交互和反馈重新排列语言模型预测的简单策略,结合预先训练的导航和视觉推理组件在 ALFRED 基准测试中表现优秀。
May, 2022
通过层次化代理模型和知识蒸馏,将大型语言模型的性能通过转移学习到小型语言模型,在科学世界的多任务交互文本环境中胜过其他大型语言模型方法,从而提高了效率。