基于 LLM 的推荐系统环境
通过利用大型语言模型(LLMs)进行模拟用户反馈,Lusifer 以生成模拟用户行为和偏好的方式,解决了训练基于强化学习的推荐系统中动态和真实用户交互的不足。通过使用 MovieLens100K 数据集作为概念验证,Lusifer 展示了对用户行为和偏好的准确模拟,同时提供了 Lusifer 操作流程的详细介绍,包括提示生成和迭代用户配置文件更新。未来的研究可以利用这个环境来训练强化学习系统,并为在线推荐系统中的用户模拟提供可扩展和可调整的框架。
May, 2024
本文提出一种通过模型驱动的增强学习方法来不断优化推荐策略的推荐系统,将用户与推荐系统之间的交互建模为马尔可夫决策过程,并通过在线用户 - 代理交互环境模拟器来预训练和评估模型参数,进一步提出了一种将列表式推荐纳入推荐系统的实验方法,并在真实世界的电子商务数据集上验证了该方法的有效性。
Dec, 2017
大规模语言模型在增强学习中具有广泛的预训练知识和高水平的通用能力,本文对现有文献进行了综述,概括了大规模语言模型增强学习与传统增强学习方法的特点,并提出了一个结构化的分类法来系统地分类大规模语言模型在增强学习中的功能和方法,并讨论了其潜在应用、前景机会和挑战。
Mar, 2024
本文介绍了一种基于大型语言模型的推荐系统模拟器 RecAgent,旨在克服仿真研究的缺陷并突出优势,通过真实用户行为来验证其有效性。
Jun, 2023
利用大型语言模型优化强化学习的奖励功能,使自动驾驶代理在行为上更加灵活、精准和类人化,探究奖励设计在塑造自动驾驶车辆行为中的重要影响,为更先进、类人化的自动驾驶系统的发展提供了有希望的方向。
May, 2024
通过整合大型语言模型与推荐系统的表示学习,我们提出了一个模型不可知的框架 RLMRec,旨在增强现有的推荐器,并提高其对于用户行为和偏好的语义理解,同时通过交叉视角对齐框架,将 LLM 的语义空间与协同关系信号的表示空间相对应。
Oct, 2023
通过使用增强学习直接生成基础指令数据集,TeaMs-RL 方法能够在单一微调步骤中提高大型语言模型的能力,减少人为参与需求、模型查询次数以及提高模型隐私保护能力。
Mar, 2024
使用大型语言模型作为强化学习代理以解决对话式强化学习问题,通过提出的提示技术,演示了如何迭代引导语言模型学习和优化特定强化学习任务的策略,并通过两个具体案例研究展示了该方法的实用性。
Apr, 2024