利用双层可学习大语言模型规划增强长期推荐
利用大型语言模型(LLMs)和运动规划,提出了一种模块化方法 Plan-Seq-Learn(PSL),将抽象语言和学习到的低级控制相结合,从头开始解决长期目标的机器人任务,并在超过 25 个具有挑战性的机器人任务中取得了最先进的结果。
May, 2024
使用 Large Language Models (LLMs) 进行个性化推荐任务的研究,设计了一种基于 LLM 的自主推荐代理系统 RecMind,通过精心规划、利用外部知识工具和个人数据,以及提出的 Self-Inspiring 算法来改善规划能力,实现了准确的个性化推荐。实验证明 RecMind 在多种推荐场景下表现优异,超过了现有的零 / 少样本 LLM-based 推荐方法,并与最近的预训练模型 P5 达到了竞争性的性能。
Aug, 2023
从理论角度出发,研究大型语言模型在物理世界中解决决策问题的原因,通过层次化强化学习模型,证明预先训练的大型语言模型规划器通过上下文学习有效地进行贝叶斯聚合模仿学习,并引入探索策略避免线性遗憾。扩展该理论框架应用于环境的过渡模型推断和多智能体协调等场景。
May, 2024
本文探究将强化学习代理人和大规模语言模型相结合,实现在复杂环境中的推理和泛化的能力,通过预训练语言模型作为规划器,简单的合成体智能作为行动器,和与规划器通信的汇报器这三部分,展示这个系统在零 - shot 泛化的任务中的表现,并且讨论了其失败情况以及组件使用增强学习的培训任务。
Feb, 2023
大规模语言模型在信息提取任务中存在问题,通过两阶段多步骤方法和强化学习框架提高其表现,将顺序提取视为马尔可夫决策过程,训练决策模型以提供最佳的实体提取顺序,有效改善大规模语言模型的信息提取能力。
Jun, 2024
本文着重于构建一个具有考虑长期未来的模型,并展示如何利用它进行有效规划和探索,通过搜寻模型下的不可能轨迹来设计探索策略,并在两种学习环境中取得了比基线更快更高报酬的效果。
Mar, 2019
大型语言模型和强化学习模型合作的教师 - 学生学习框架,通过递归互助的方式,实现了抽象信息的供给和实时反馈的互利循环,从而推动大型语言模型和强化学习模型在协同多智能体环境中的优化、探索和互相改进。
Jan, 2024
本文介绍了 LLM + P 框架,将经典计划器的优点结合到大语言模型中,可以通过自然语言描述解决计划问题,经过实验发现 LLM + P 可以提供大多数问题的最优解,而 LLMs 则无法为大多数问题提供甚至可行的计划。
Apr, 2023