本文介绍了一种上下文赌博算法,它基于奖励估计置信度来检测环境变化并相应地更新其臂选择策略,而严格的上限遗憾分析证明了其在非平凡环境中的学习效果。
May, 2018
本研究提出了一种在线聚类的赌博算法,通过允许用户频率的非统一分布,并使用简单的集合结构来表示聚类,提出了一种更有效的算法,并证明了该算法的遗憾界可以不考虑用户的最小频率。在合成和真实数据集的实验中,新算法相对于现有方法具有一定的优势。
Feb, 2019
提出了一种面向异构客户的联邦赌博学习算法,通过对客户进行聚类实现了协同赌博学习,在联邦学习设置下,该算法在所有客户端都能实现非平凡的次线性遗憾和通信成本,只要服务器在任何时候只共享一个模型。
Feb, 2024
介绍一种基于自适应聚类探索 - 利用 (“赌徒”) 策略的内容推荐算法,提供标准随机噪声环境下的尖锐遗憾分析,证明其伸缩性属性并在一些人工和实际数据集上证明其有效性。实验结果显示,在赌徒问题上,预测性能显著优于现有技术方法。
Jan, 2014
在这篇论文中,我们介绍了一种新颖的非平稳情境强化学习算法,它结合了可扩展的基于深度神经网络的架构和一个精心设计的探索机制,在非平稳环境中优先采集具有最持久价值的信息,并通过对两个展现明显非平稳性的真实推荐数据集的实证评估,我们证明了我们的方法明显优于现有技术水平。
Oct, 2023
本文提出了一种新的上下文强化学习算法 NeuralBandit,它不需要对上下文和奖励的稳定性提出假设。该算法使用多个神经网络来建模上下文的价值,并提出了两种基于多专家方法的变体来在线选择多层感知器的参数。该算法在大型数据集上进行了测试,包括奖励稳定和不稳定的情况,并取得了成功的效果。
Sep, 2014
本篇论文研究以往文献未解决的问题,提出了一种新的基于 Thompson 采样的算法(被称为去混淆 Thompson 采样),该算法在易于稳定的情况下发挥优越效率,在困难的不稳定情况下也表现出出人意料的韧性,可在具有不稳定上下文影响的武器性能的智能探险算法中应用。
Feb, 2022
提出了一种新的离线策略评估器,能够同时正确地结合重要性加权、双重稳健评估和非平稳策略评估方法,控制偏差 - 方差权衡并降低方差,并成功地将之前的方法统一起来,实现了对实验学习问题信息的更有效利用。
Oct, 2012
研究了在高度非静态环境中的情境赌博问题,提出了一种高效的自适应学习算法,并提供了理论上的遗憾分析来证明在时间长度 $T$ 的情况下,实现了遗憾的亚线性缩放。此外,将该算法扩展到混合收益的更一般情况下,并进行了实证实验,证明了该算法在两种设置下对基线算法的优势。
Feb, 2020
本研究开发了多种高效的上下文推断算法,为非平稳环境提供了有效的解决方案,具有动态适应分布变化的能力,同时通过对各种标准回归进行分析,证明了在时间和空间成本上都能达到最优的效果。
Aug, 2017