基于遗传多臂赌博机的通过仿真进行离散优化的强化学习方法
提出一种基于遗传算法的多臂赌博机算法来改善在线学习中的序列决策问题,并通过多臂赌博机仿真环境和实际流行病控制问题的实验结果显示,该方法显著优于基准算法,并介绍了 EvoBandit,一个基于 Web 的交互式可视化方案来指导读者进行整个学习过程并进行轻量级评估。
Apr, 2022
设计一种不使用奖励分布信息的多臂赌博机算法,通过交替应用贪婪规则与强制探索来实现显著的后悔上界,并提供不同强制探索策略下的问题依赖性后悔上界分析方法,适用于不同奖励分布的固定和分段固定设置。
Dec, 2023
本文探讨了使用多代理多臂老虎机 (MA-MAB) 设置对重复 Cournot 奥利格普利博弈进行建模的方法,并发现 E - 贪心方法是一种比传统 MAB 方法更可行的学习机制。同时,本文提出了两种利用有序行动空间的新方法,即 E - 贪心 + HL 和 E - 贪心 + EL,以优化探索,并使用计算机模拟研究了各种均衡的出现,并进行了联合累积损失的实证分析。
Jan, 2022
引入一种新的组合多臂赌博梳理 (CMAB) 框架,具有多维和概率触发的臂 (CMAB-MT),其中每个臂的结果是一个 d 维多维随机变量,反馈遵循普通臂触发过程。
Jun, 2024
提出了一种新的方法来解决具有全局不可分离奖励的不安定多臂赌博机问题,并且通过引入线性和 Shapley-Whittle 指标以及自适应策略来改进现有方法。实验证明,该方法在合成数据和现实世界数据中表现优于基线模型和基于指标的方法。
Jun, 2024
本文针对多臂赌博机问题中存在的多元反馈进行研究,通过使用广义 Gini 指数聚合函数对多目标在线优化问题进行形式化,并提出了一种在线梯度下降算法来解决该问题。该算法利用 GGI 聚合函数的凸性,通过精心控制探索来实现分布自由的回归。在合成数据和电池控制问题上进行测试,可以有效地平衡不同细胞的退化速率。
Jun, 2017
本论文研究了一种称为图赌博机的多臂赌博机扩展问题,提出了一种能够利用乐观原则平衡长期探索与开发的学习算法 G-UCB,并证明其能够达到理论最优的遗憾界,数值实验结果表明该算法优于其他基准算法。
Sep, 2022
提出针对多臂赌博机模型(MAB)的新型组合睡眠 MAB 模型。通过扩展在线学习算法 UCB 以处理利用和探索之间的权衡,同时采用虚拟队列技术来正确处理公平性约束。最终提出一种名为 LFG 的新算法,可保证可行性最优,具有受时间平均后悔上限约束的时间复杂度,并进行了广泛的模拟以证明其有效性。
Jan, 2019
该研究提出了一种通用的组合多臂赌博问题框架,将未知分布的基础臂组成超级臂进行玩耍,进一步探讨了更多可能基于已激发臂的结果触发概率的扩展,旨在通过在线学习算法实现最小化(α,β)- 逼近遗憾。
Jul, 2014
本研究考虑了一种新颖的多臂赌博机问题(MAB with cost subsidy),为了优化累积的成本和收益,学习机构必须支付选择的手臂成本,针对这种问题,我们提出了探索 - 开发算法的简单版本并对其进行了广泛的数值模拟,最后建立了任何线上学习算法的性能下界,为实际应用不同算法提供了实用性建议。
Nov, 2020