利用双层可学习大语言模型规划增强长期推荐

Feb, 2024

利用双层可学习大语言模型规划增强长期推荐

Enhancing Long-Term Recommendation with Bi-level Learnable Large Language Model Planning

Wentao Shi, Xiangnan He, Yang Zhang, Chongming Gao, Xinyue Li...

TL;DR利用大型语言模型的规划能力，提出一种可学习的长期推荐规划框架，结合强化学习和层次学习。实验证实该框架在学习长期推荐规划方面具有优势。

Abstract

Traditional recommendation setting tends to excessively cater to users' immediate interests and neglect their long-term engagement. To address it, it is crucial to incorporate →

recommendation planning capabilities reinforcement learning large language models long-term engagement

发现论文，激发创造

Plan-Seq-Learn: 语言模型引导强化学习解决长时程机器人任务

利用大型语言模型（LLMs）和运动规划，提出了一种模块化方法 Plan-Seq-Learn（PSL），将抽象语言和学习到的低级控制相结合，从头开始解决长期目标的机器人任务，并在超过 25 个具有挑战性的机器人任务中取得了最先进的结果。

May, 2024

理解大型语言模型在自动化规划方面的能力

该研究旨在探讨大型语言模型在自动计划中的应用，研究包括使用何种预训练数据最有效、微调或提示哪种方法最有效以及大型语言模型能否进行计划综合。

May, 2023

探索和基准测试大型语言模型的规划能力

提高大型语言模型的规划能力，研究领域包括基于上下文学习、微调，以及在未知领域的性能评估。

Jun, 2024

RecMind: 大规模语言模型强力推荐智能体

使用 Large Language Models (LLMs) 进行个性化推荐任务的研究，设计了一种基于 LLM 的自主推荐代理系统 RecMind，通过精心规划、利用外部知识工具和个人数据，以及提出的 Self-Inspiring 算法来改善规划能力，实现了准确的个性化推荐。实验证明 RecMind 在多种推荐场景下表现优异，超过了现有的零 / 少样本 LLM-based 推荐方法，并与最近的预训练模型 P5 达到了竞争性的性能。

Aug, 2023

从词语到行动：揭示 LLM 驱动的自主系统的理论基础

从理论角度出发，研究大型语言模型在物理世界中解决决策问题的原因，通过层次化强化学习模型，证明预先训练的大型语言模型规划器通过上下文学习有效地进行贝叶斯聚合模仿学习，并引入探索策略避免线性遗憾。扩展该理论框架应用于环境的过渡模型推断和多智能体协调等场景。

May, 2024

利用语言模型进行具身推理的协作

本文探究将强化学习代理人和大规模语言模型相结合，实现在复杂环境中的推理和泛化的能力，通过预训练语言模型作为规划器，简单的合成体智能作为行动器，和与规划器通信的汇报器这三部分，展示这个系统在零 - shot 泛化的任务中的表现，并且讨论了其失败情况以及组件使用增强学习的培训任务。

Feb, 2023

自适应强化学习规划：利用大规模语言模型进行复杂信息提取

大规模语言模型在信息提取任务中存在问题，通过两阶段多步骤方法和强化学习框架提高其表现，将顺序提取视为马尔可夫决策过程，训练决策模型以提供最佳的实体提取顺序，有效改善大规模语言模型的信息提取能力。

Jun, 2024

结合长期未来的强化学习动力学模型学习

本文着重于构建一个具有考虑长期未来的模型，并展示如何利用它进行有效规划和探索，通过搜寻模型下的不可能轨迹来设计探索策略，并在两种学习环境中取得了比基线更快更高报酬的效果。

Mar, 2019

大型语言和强化学习模型相互增强的双向反馈机制：以案例研究为例

大型语言模型和强化学习模型合作的教师 - 学生学习框架，通过递归互助的方式，实现了抽象信息的供给和实时反馈的互利循环，从而推动大型语言模型和强化学习模型在协同多智能体环境中的优化、探索和互相改进。

Jan, 2024

LLM+P：利用最优规划提升大型语言模型的性能

本文介绍了 LLM + P 框架，将经典计划器的优点结合到大语言模型中，可以通过自然语言描述解决计划问题，经过实验发现 LLM + P 可以提供大多数问题的最优解，而 LLMs 则无法为大多数问题提供甚至可行的计划。

Apr, 2023