Oct, 2023

一种风险厌恶的非平稳随机多臂赌博机框架

TL;DR提出了一种在非平稳环境中运行的自适应风险感知策略框架,该框架结合了文献中普遍存在的各种风险度量标准,将多臂赌博算法的多个系列映射到风险感知的设置中,并将重启贝叶斯在线变点检测算法和(可调节的)强制探索策略结合在一起,以检测本地(针对每个臂)的切换,并提供有限时间的理论保证和渐进性的损失界限,性能在合成和现实环境中均优于现有状态下的技术,并在风险感知和非平稳性方面高效执行。