多臂赌博机中的风险规避
探讨了在多臂赌博机中最小化遗憾的问题,其中臂的好坏度量不是平均回报率,而是平均值和方差的某个通用函数,特征化了学习可能的条件,并展示了对于某些情况自然算法无法实现亚线性遗憾的例子。
May, 2014
本文研究了在风险厌恶的多臂老虎机问题中使用收益的均值和方差作为风险度量,并证明了 UCB 策略和 DSEE 策略可以实现收益方面的最优表现,且模型特定和模型无关的遗憾都有下界。
Apr, 2016
提出了一种在非平稳环境中运行的自适应风险感知策略框架,该框架结合了文献中普遍存在的各种风险度量标准,将多臂赌博算法的多个系列映射到风险感知的设置中,并将重启贝叶斯在线变点检测算法和(可调节的)强制探索策略结合在一起,以检测本地(针对每个臂)的切换,并提供有限时间的理论保证和渐进性的损失界限,性能在合成和现实环境中均优于现有状态下的技术,并在风险感知和非平稳性方面高效执行。
Oct, 2023
研究了多臂赌博问题中的探索和利用问题,并提出了一种基于非均匀采样策略的算法,用于解决带有分段稳定随机赌博问题的情况,并实现了对于超宽带通道选择的模拟测试。
May, 2012
本文提出了针对均值 - 方差 MAB 问题的 Thompson 抽样算法,并在更少的假设条件下提供了高斯和伯努利 bandit 的全面损失分析。我们的算法在各种参数配置下都达到了最好的已知损失边界。
Feb, 2020
研究一种新颖的多臂赌博问题,旨在解决公司在探索最大化收益新策略的同时,保持其收益在固定时间内持续增长的挑战。 通过提出自然而又新颖的策略来维护限制,我们在随机和对抗设置下分析了限制维护的代价。
Feb, 2016
本文介绍了多臂风险感知算法(MARAB),用于能源管理,旨在通过限制高风险风险臂的探索来提高效率。通过使用条件风险价值作为臂质量,当用户提供的风险水平趋近于零时,MARAB 倾向于最小化多臂赌博机算法(MIN),以最大化最小值。实验表明,与其他算法相比,MARAB 和 MIN 算法更加稳健,可用于人工和现实世界的问题。
Jan, 2014
本篇论文旨在应对多臂赌博机问题中存在多个最优 / 近似最优机械臂的后悔最小化问题,通过提出自适应算法来自动适应问题的难度,并在理论和实验方面展现了该算法的优越性。
Jun, 2020