restless bandit problem | BriefGPT

关键词restless bandit problem

搜索结果 - 5

Unichain 和非周期性对于渐近最优性的平均奖励厌恶赌博机是充分条件
我们研究了离散时间无限远平均回报的不安静赌博机问题，提出了一种新的策略类别，旨在将逐渐增大的一部分臂带向最优分布。我们证明了在 N 臂问题中，如果单臂松弛问题是单连通和非周期的，我们的策略是渐近最优的，具有 O (1/√N) 的最优性差距。
PDF5 months ago
具有平均奖励的不安定强盗：打破统一全局吸引子假设
本研究提出了一种基于模拟的框架，可以将单臂策略转换成适用于 N 臂问题的策略，并提供了在离散和连续时间框架下的计算上最优结果，且不需要 UGAP 假设。
PDFa year ago
使用不安定博弈算法缓存流量不稳定的内容
本文研究在无线边缘 (即基站) 缓存内容以最小化无限时域内的成本问题，将问题建模为不安定老虎机问题，证明了应用 Whittle 指数策略最小化费用的指标性。
PDF2 years ago
MM多通道机会式接入：多次播放的不安定赌博模型
本文研究了随机控制问题在机会式频谱访问中的应用，提出了设计一种通道选择策略，以最大化预期折扣总报酬为目标，将问题与该类问题现有文献进行了讨论。
PDF15 years ago
不静态赌博机问题的近似算法
讨论了一种无法使用贪心指数算法求解的 Feedback MAB 问题，开发出了一种新颖并且通用的双重算法技术，可为不少于 1+epsilon 的解提供 2+epsilon 的近似值，这个技术同样适用于其他不特定的喧闹强盗问题和 POMDP。
PDF17 years ago