基于 LLM 的推荐系统环境

Jun, 2024

An LLM-based Recommender System Environment

Nathan Corecco, Giorgio Piatti, Luca A. Lanzendörfer, Flint Xiaofeng Fan, Roger Wattenhofer

TL;DR通过利用大型语言模型（LLMs）模拟人类行为，本研究提出了一个综合框架，用于训练基于强化学习（RL）的推荐系统，并提供了深入的消融研究，通过电影和书籍推荐实验证明了其有效性。

Abstract

reinforcement learning (RL) has gained popularity in the realm of recommender systems due to its ability to optimize long-term rewards and guide users in discovering relevant content. However, the successful implementation of RL in →

reinforcement learning recommender systems evaluation frameworks synthetic environments large language models

发现论文，激发创造

超越人类偏好：通过 LLMs 探索强化学习轨迹的评估与改进

基于偏好的强化学习利用大型语言模型生成自动偏好数据，并通过重构奖励函数来优化强化学习训练，在复杂环境中加速收敛并提高效果。

Jun, 2024

Lusifer: 基于 LLM 的用户模拟反馈环境用于在线推荐系统

通过利用大型语言模型（LLMs）进行模拟用户反馈，Lusifer 以生成模拟用户行为和偏好的方式，解决了训练基于强化学习的推荐系统中动态和真实用户交互的不足。通过使用 MovieLens100K 数据集作为概念验证，Lusifer 展示了对用户行为和偏好的准确模拟，同时提供了 Lusifer 操作流程的详细介绍，包括提示生成和迭代用户配置文件更新。未来的研究可以利用这个环境来训练强化学习系统，并为在线推荐系统中的用户模拟提供可扩展和可调整的框架。

May, 2024

基于深度强化学习的列表推荐

本文提出一种通过模型驱动的增强学习方法来不断优化推荐策略的推荐系统，将用户与推荐系统之间的交互建模为马尔可夫决策过程，并通过在线用户 - 代理交互环境模拟器来预训练和评估模型参数，进一步提出了一种将列表式推荐纳入推荐系统的实验方法，并在真实世界的电子商务数据集上验证了该方法的有效性。

Dec, 2017

大语言模型时代的推荐系统

本论文对基于大型语言模型（LLMs）的推荐系统进行了全面综述，总结了 LLMs 在推荐系统中的应用方法，包括预训练、微调和提示，并讨论了未来方向。

Jul, 2023

基于大型语言模型增强强化学习的调研：概念，分类和方法

大规模语言模型在增强学习中具有广泛的预训练知识和高水平的通用能力，本文对现有文献进行了综述，概括了大规模语言模型增强学习与传统增强学习方法的特点，并提出了一个结构化的分类法来系统地分类大规模语言模型在增强学习中的功能和方法，并讨论了其潜在应用、前景机会和挑战。

Mar, 2024

RecAgent: 一种适用于推荐系统的新型仿真范式

本文介绍了一种基于大型语言模型的推荐系统模拟器 RecAgent，旨在克服仿真研究的缺陷并突出优势，通过真实用户行为来验证其有效性。

Jun, 2023

自动驾驶场景下的上下文学习

利用大型语言模型优化强化学习的奖励功能，使自动驾驶代理在行为上更加灵活、精准和类人化，探究奖励设计在塑造自动驾驶车辆行为中的重要影响，为更先进、类人化的自动驾驶系统的发展提供了有希望的方向。

May, 2024

利用大型语言模型进行推荐的表示学习

通过整合大型语言模型与推荐系统的表示学习，我们提出了一个模型不可知的框架 RLMRec，旨在增强现有的推荐器，并提高其对于用户行为和偏好的语义理解，同时通过交叉视角对齐框架，将 LLM 的语义空间与协同关系信号的表示空间相对应。

Oct, 2023

TeaMs-RL：通过强化学习教授 LLMs 更好地自我指导

通过使用增强学习直接生成基础指令数据集，TeaMs-RL 方法能够在单一微调步骤中提高大型语言模型的能力，减少人为参与需求、模型查询次数以及提高模型隐私保护能力。

Mar, 2024

大规模语言模型的强化学习问题解决

使用大型语言模型作为强化学习代理以解决对话式强化学习问题，通过提出的提示技术，演示了如何迭代引导语言模型学习和优化特定强化学习任务的策略，并通过两个具体案例研究展示了该方法的实用性。

Apr, 2024