利用大型语言模型和强化学习优化前 K 推荐的新颖性
利用强化学习技术的深度学习模型预测用户下一个搜索词并依据长期会话反馈、语法相关性以及生成查询的自然度等奖励信号对高质量且多样化的相关搜索查询进行推荐。相对于基线监督模型,我们提出的方法在推荐的多样性、用户参与度和每个句子重复词的数量方面都有显著的相对改进(3%、4.2%和 82%)。
Aug, 2021
发展了一种令人信服,精确,个性化,与偏好相关的语言模型 (P4LM),该模型通过使用用户偏好的嵌入空间表示来生成富有说服力的回复,同时强调解释物品特征及其相关性。此外,还开发了一个联合奖励函数,用于衡量精确性、吸引力和个性化,该函数用作基于增强学习的语言模型框架中的人工智能反馈。使用 MovieLens 25M 数据集证明了 P4LM 向用户提供了引人入胜、个性化的电影叙事。
Oct, 2023
本文探讨了利用一种改进的指针网络结构思想,通过采用深度强化学习来解决关键词推荐的组合优化问题,提出了一个预分簇方法 Equal Size K-Means 来加速训练和测试,该框架在离线和在线环境中均取得了显著的提高。
Jul, 2019
本文提出了一种方法,在工业推荐系统中使用基于策略梯度的 REINFORCE 算法来解决通过学习从之前版本的推荐中观察到的数据偏差,同时通过纠正离线反馈数据的偏差来消除 REINFORCE 在大规模 action space 中的数据偏差,同时提出一种针对推荐多个项目的新型 top-K 保真度校正方法,并通过模拟和多个实验表明了该方法的有效性。
Dec, 2018
本文提出一种通过模型驱动的增强学习方法来不断优化推荐策略的推荐系统,将用户与推荐系统之间的交互建模为马尔可夫决策过程,并通过在线用户 - 代理交互环境模拟器来预训练和评估模型参数,进一步提出了一种将列表式推荐纳入推荐系统的实验方法,并在真实世界的电子商务数据集上验证了该方法的有效性。
Dec, 2017
提出了一种新的基于层次强化学习的方法,用于建模用户的层次式好奇心意图,从而可以根据提取的用户好奇心倾向来调整推荐策略,通过在奖励功能中引入多样性和新颖性相关的度量来鼓励用户的探索,通过针对模拟和实际数据集的大量实验来证明了该方法的效果优于现有的基线模型。
Jun, 2023
介绍了一种基于神经网络的查询重构系统,使用强化学习训练神经网络,动作是选择术语以建立重构查询,回报是文档召回率,我们在三个数据集上评估了我们的方法,相对 Recall 方面有 5-20% 的改进。此外,我们提供了一种简单方法来估算模型在特定环境中的保守上限性能,并验证存在很大的改进空间。
Apr, 2017
本研究提出了一种基于强化学习的翻译模型框架,该模型以关键字为基础,能够理解使用自然语言表示的信息需求,并通过注入相关反馈,采用单词选择方法来克服缺乏大规模数据集的问题。实验表明,该方法在两个 TREC 数据集上的有效性得到了证明。
Aug, 2018
本文提出了一种使用强化学习方法进行关键词生成的技术,利用自适应的奖励函数鼓励模型生成足够且准确的关键词,并引入了一种新的评估方法,该方法使用维基百科知识库来确保更加鲁棒的关键词质量评估。该方法在不同规模的五个真实世界数据集上实现了显著的性能提升,从而验证了其优越性。
Jun, 2019