级联强化学习

Jan, 2024

Cascading Reinforcement Learning

Yihan Du, R. Srikant, Wei Chen

TL;DR在先前的研究中，瀑布式赌博未考虑用户状态和状态转换对推荐的影响，因此我们提出了一个考虑用户状态和状态转换的广义瀑布式强化学习框架。通过深入研究价值函数的属性并设计一个最优项目列表的快速查找算法，我们开发了两个算法 CascadingVI 和 CascadingBPI，它们在计算效率和样本效率上都表现出较好的结果。通过实验证明我们算法在实践中相较于现有的强化学习算法能够提供改进的计算和样本效率。

Abstract

cascading bandits have gained popularity in recent years due to their applicability to recommendation systems and online advertising. In t

cascading bandits recommendation systems online advertising generalized cascading rl framework value functions

发现论文，激发创造

基于级联赌博机的大规模推荐问题

本研究提出了两种基于线性推广的算法来解决级联赌博问题，主要应用在推荐系统中。通过对算法的评估，发现本文算法表现较为良好，且优于所有基准算法。

Mar, 2016

级联模型中的排序学习

本文介绍了一种名为级联赌博的学习算法，用于在搜索引擎结果中识别出最有吸引力的 $K$ 个页面。研究将问题表述为随机组合式部分监控问题，并提出了两种算法，CascadeUCB1 和 CascadeKL-UCB，在实验中表现良好。

Feb, 2015

成本感知级联赌博算法

本文提出了一种成本感知的级联赌博模型，研究其应用在在线和离线环境下的表现，并介绍了一种新的成本感知级联上置信区间算法以解决在线环境下的问题。

May, 2018

组合级联赌博机

提出了组合级联赌博算法，对分布随机的约束问题解决一类非线性奖励函数部分可观测性问题，提供了一种基于 UCB 算法的求解方法，并论证了与时间复杂度无关的期望损失界限和时间关联的损失上限。在两个真实世界的网络路径问题测试中，算法表现良好，说明该算法对于模型假设违反的情况同样稳健有效，这个设置还需要提出新的学习算法。

Jul, 2015

高维线性赌博机和推荐系统

该研究使用线性参数化多臂赌博机模型来提高在线服务推荐新产品、视频、歌曲和广告的效果，得到了能够满足用户喜好探索和系统数据调查的解决方案，并在 Netflix 和 MovieLens 数据集上进行了测试。

Jan, 2013

基于乐观思维探索的大规模推荐系统

通过一系列大规模的生产推荐系统实验和深入的分析，我们展示了我们的强化学习代理设计如何提高生产推荐系统的个性化，在一定程度上解决了多任务扩展性和 A/B 测试等瓶颈，并给出了一套测量用户探索效率的新指标设计。

Apr, 2023

深度贝叶斯多臂赌博机：在线个性化推荐中的探索

本文提出了一种使用深度贝叶斯 Bandits 算法的广告推荐系统，其包含探索技术和上下文的特征，以解决推荐系统中的反馈循环问题和算法偏差。

Aug, 2020

上下文串联赌博机的在线聚类

本研究基于在线聚类算法探讨了上下文串联赌博机算法的新领域，针对用户间的聚类问题进行了广泛研究，并提出了一种新的算法 CLUB-cascade。实验显示，该算法可以有效地解决网络系统的信息推荐问题。

Nov, 2017

具有确定性演化状态的赌博机

我们提出了一种在考虑确定性演变和不可观测状态下进行强化学习的模型，其核心应用领域是推荐系统和在线广告学习，通过在算法选择的每一轮中考虑行为的短期奖励和系统的 “健康” 程度（即由其状态衡量），来计算奖励；该模型可适应不同演变速率 λ，旨在最小化与最佳固定选择序列相比的遗憾度。

Jul, 2023

协同过滤赌博机

本文提出了一种自适应聚类技术，以探索 - 利用策略为基础，用于内容推荐系统中高动态性的推荐领域，该算法利用数据中的喜好模式，具有与协同过滤方法类似的优点，对中等规模的真实世界数据集进行了实证分析，表现出可扩展性和预测性能提高。

Feb, 2015