本文介绍了一种基于多臂老虎机算法和位置点击模型的方法,用于解决线上系统中推荐排名的偏见问题,并在合成和实际数据集的离线和在线 A/B 测试中证明了该算法的有效性。
Apr, 2020
本文着重研究在线学习中的顺序迁移问题,尤其是在多臂赌博机框架中,引入了一种基于矩阵方法的赌博算法,推导出了它的遗憾界。
Jul, 2013
本文介绍了一种名为级联赌博的学习算法,用于在搜索引擎结果中识别出最有吸引力的 $K$ 个页面。研究将问题表述为随机组合式部分监控问题,并提出了两种算法,CascadeUCB1 和 CascadeKL-UCB,在实验中表现良好。
Feb, 2015
提出了第一个通用 MAB 框架来捕捉在线学习排序(ONL2R)和基于位置点击模型的所有关键要素,并开发了基于贪婪和 UCB 算法的统一策略(GreedyRank 和 UCBRank),分别适用于个性化和相等的排序处理,证明了这两个算法在不同问题设置下的高效性。
Nov, 2023
在先前的研究中,瀑布式赌博未考虑用户状态和状态转换对推荐的影响,因此我们提出了一个考虑用户状态和状态转换的广义瀑布式强化学习框架。通过深入研究价值函数的属性并设计一个最优项目列表的快速查找算法,我们开发了两个算法 CascadingVI 和 CascadingBPI,它们在计算效率和样本效率上都表现出较好的结果。通过实验证明我们算法在实践中相较于现有的强化学习算法能够提供改进的计算和样本效率。
Jan, 2024
本研究提出了两种基于线性推广的算法来解决级联赌博问题,主要应用在推荐系统中。通过对算法的评估,发现本文算法表现较为良好,且优于所有基准算法。
Mar, 2016
提出了一种 DCM Bandits 算法,用于利用线上学习来最大化推荐令人满意的网页,该算法是一种可行的、无遗憾的在线算法,用于学习在类似于级联点击模型中多次点击的排序问题。
Feb, 2016
本文研究了一种名为 “部分信息” 的在线学习模型,提出了多种算法,通过信息反馈结构的组合特性,给出了紧密的遗憾界限。
Sep, 2014
设计一种不使用奖励分布信息的多臂赌博机算法,通过交替应用贪婪规则与强制探索来实现显著的后悔上界,并提供不同强制探索策略下的问题依赖性后悔上界分析方法,适用于不同奖励分布的固定和分段固定设置。
Dec, 2023
该研究使用线性参数化多臂赌博机模型来提高在线服务推荐新产品、视频、歌曲和广告的效果,得到了能够满足用户喜好探索和系统数据调查的解决方案,并在 Netflix 和 MovieLens 数据集上进行了测试。
Jan, 2013