用户主动透露意愿的推荐
本文提出了一种自动在线推荐系统的模型,其中用户的喜好是时变的并且可以依赖于过去的推荐历史和玩出历史,通过使用基于Thompson采样的在线强化学习算法,该模型可以学习优化推荐效果,并具有可证明的性能保证。
Mar, 2016
该研究提出了两种基于用户 - 用户和物品 - 物品协同过滤算法的在线推荐系统,以探索性建议为基础,并证明了它们的性能保证以及信息论下界对协同过滤算法的优化建议。
Nov, 2017
描述了一种新的推荐算法,该算法明确地建模了负面用户偏好,以便在推荐列表的顶部推荐更多积极的物品,从而提高准确性并减少负面物品的数量。
Dec, 2018
研究表明,推荐系统展示给用户的内容会影响他们的决策, 本文通过使用历史用户交互数据训练预测用户模型来评估推荐系统对用户偏好的影响,提出使用 “安全移位”的概念来规避操纵行为。模拟实验表明,优化保持“安全移位”的推荐系统能够避免 manipulative 行为同时仍然能够产生用户参与度。
Apr, 2022
本文提出了一种名为PrefRec的新模型,它基于用户历史行为的喜好训练基于强化学习的推荐器,可有效地优化长期用户参与度,在大量的实验中,PrefRec在所有任务中显着优于之前的最先进方法。
Dec, 2022
本文探究并验证基于多臂赌博机算法(MABs)生成的个性化推荐系统所依赖的假设是否正确,结果表明人类偏好动态性的存在需要被考虑。同时,作者还提供了一种灵活的实验框架来理解人类偏好动态性和测试MABs算法。
Apr, 2023
本研究聚焦于物理世界推荐系统中的用户不合规现象,提出了 Nah Bandit 模型以应对用户拒绝推荐的挑战。通过引入 Expert with Clustering (EWC) 算法,该方法有效利用用户反馈,显著提升推荐准确性并加速偏好学习。研究结果表明,EWC 在短期内的理论表现优于传统方法,为未来推荐系统研究奠定了基础。
Aug, 2024
本研究解决了在推荐系统中使用实时实验进行政策评估的高成本问题,尤其是在新用户的引导过程中。通过开发反事实鲁棒的用户行为模型和结合生产基础设施的模拟服务,提出了一种新颖的方法来减少在线实验的使用,从而可靠预测新算法的表现。该研究可能显著降低推荐系统评估的成本和时间,提高效率。
Sep, 2024