Oct, 2023

基于语言模型和强化学习的事实和个性化推荐

TL;DR发展了一种令人信服,精确,个性化,与偏好相关的语言模型 (P4LM),该模型通过使用用户偏好的嵌入空间表示来生成富有说服力的回复,同时强调解释物品特征及其相关性。此外,还开发了一个联合奖励函数,用于衡量精确性、吸引力和个性化,该函数用作基于增强学习的语言模型框架中的人工智能反馈。使用 MovieLens 25M 数据集证明了 P4LM 向用户提供了引人入胜、个性化的电影叙事。