本文提出了一种使用深度贝叶斯 Bandits 算法的广告推荐系统,其包含探索技术和上下文的特征,以解决推荐系统中的反馈循环问题和算法偏差。
Aug, 2020
该研究使用线性参数化多臂赌博机模型来提高在线服务推荐新产品、视频、歌曲和广告的效果,得到了能够满足用户喜好探索和系统数据调查的解决方案,并在 Netflix 和 MovieLens 数据集上进行了测试。
Jan, 2013
本研究提出了两种基于线性推广的算法来解决级联赌博问题,主要应用在推荐系统中。通过对算法的评估,发现本文算法表现较为良好,且优于所有基准算法。
Mar, 2016
研究如何考虑物品间的相关性,将物品聚类为不同的组别,并使用基于粒子学习的算法来推断模型的潜在参数和状态,从而开发出一种可以有效地整合现有多臂选择策略的在线交互协作推荐系统。
Aug, 2017
本文提出了一种在线矩阵分解推荐算法,结合了线性赌博和交替最小二乘法,通过累积遗憾和平均累积 NDCG 评估算法性能,实验结果表明该算法在三个综合数据集和三个真实数据集上优于两个最先进的在线算法。
Oct, 2018
本文介绍了一种基于多臂老虎机算法和位置点击模型的方法,用于解决线上系统中推荐排名的偏见问题,并在合成和实际数据集的离线和在线 A/B 测试中证明了该算法的有效性。
Apr, 2020
提出了一种时间递增的强化学习算法 TI-UCB,用于在模型选择中预测性能的增长趋势并平衡探索与开发的权衡,通过对分类模型选择和在线选择 LLMs 进行验证,实验证明了该方法提高了模型选择的效率和经济性。
Mar, 2024
通过一系列大规模的生产推荐系统实验和深入的分析,我们展示了我们的强化学习代理设计如何提高生产推荐系统的个性化,在一定程度上解决了多任务扩展性和 A/B 测试等瓶颈,并给出了一套测量用户探索效率的新指标设计。
Apr, 2023
本文研究神经线性赌博机,结合深度神经网络的表示能力和置信度估计机制,应用于线性环境赌博机中,通过匹配似然算法与去遗忘性相结合,取得了类似于无限存储方法的性能,而且对于遗忘性表现出了很强的韧性。
Feb, 2021
利用离线数据在随机多臂赌博机的在线学习中进行了改进,提出了一个在线策略 MIN-UCB,在给定非平凡上界的情况下优于 UCB,适当地选择使用离线数据以提高性能,理论和实验结果都表明 MIN-UCB 是一个有效的策略。
May, 2024