这篇论文介绍了多臂老虎机模型及其在不确定情况下做出决策的算法框架,在这一框架下,研究者们已经做出了大量的工作,本书提供了一种入门级的介绍,包括从基础模型到贝叶斯先验;从固定概率分布到可观测环境,通过与经济学的联系进行论述,使得读者可以更好地理解这个理论框架的应用。
Apr, 2019
该研究详细回顾了多臂赌博框架在各种应用领域上的最新前沿发展,例如推荐系统、信息检索、医疗保健和金融等,同时提供了未来该领域的重要趋势和新视角。
提供了第一个通用的、效率高的算法,用于解决序列决策中存在的、现有算法在大型连续行动空间中表现不佳的问题,该算法基于(i)监督学习和(ii)行动空间的优化的计算预言,并显示其比标准基线方法表现更好。
Jul, 2022
本文提供了一张结构化的 Bandit 算法映射图,帮助实践者通过有关奖励、行动和特征的关键决策点寻找相关实用的 Bandit 算法。
Jul, 2021
本文提出了一种新的算法方法用于解决基于社交网络结构的 Bandit 问题,该算法对每个网络节点(用户)分配了一个 Bandit 算法,并允许其与相邻节点共享信息,与传统 Contextual Bandit 方法相比,实验结果表明该算法在预测性能方面有显著提高。
Jun, 2013
该研究介绍了因式赌博模型,它是一种基于有限(赌博)反馈的学习框架,其中行动可以分解为原子行动的笛卡尔积。因式赌博将等级 1 赌博作为一个特例,但显着放宽了奖励函数形式的假设。我们提供了一种随时随地的随机因式赌博算法,并匹配了问题的上界和下界的常数。此外,我们表明,通过轻微修改,所提出的算法可以应用于效用基础的反复决斗赌徒。相对于现有算法,我们在遗憾边界的附加项方面获得了改进(这些附加项在时间范围内占支配地位,该时间范围呈指数增长)
Jul, 2018
我们设计了第一个算法来解决具有资源限制的情境赌博问题,包括具有任意策略集的情境赌博和背包式赌博,并证明了具有接近最优统计属性的遗憾保证。
Feb, 2014
本研究调查了基于偏好的多臂赌博机和决斗赌博机的最新研究现状及其解决方法,关注于在序贯决策过程中进行的数据反馈和学习,并且考虑了强度信息不可用的情况。
本文提出一种基于多臂赌博机框架的深度强化学习方法,通过选择最适合特定应用的学习模型和增强学习代理,解决了实际应用中环境不明确和奖励不稳定等问题。实验结果表明该方法在标准环境下能够选出最优代理,并且相较于其他策略在同样步数内获得更高的累计奖励值。
Feb, 2019
介绍了一种称为带背包的赌徒问题的通用模型,结合了随机整数规划和在线学习的方面。该论文提出了两种算法来解决这个问题,它们的报酬接近于信息论上的最优解,但同时带背包的赌徒问题相比传统的赌徒问题更具挑战性。
May, 2013