BriefGPT.xyz
Ask
alpha
关键词
restless bandit problem
搜索结果 - 5
Unichain 和非周期性对于渐近最优性的平均奖励厌恶赌博机是充分条件
我们研究了离散时间无限远平均回报的不安静赌博机问题,提出了一种新的策略类别,旨在将逐渐增大的一部分臂带向最优分布。我们证明了在 N 臂问题中,如果单臂松弛问题是单连通和非周期的,我们的策略是渐近最优的,具有 O (1/√N) 的最优性差距。
→
PDF
5 months ago
具有平均奖励的不安定强盗:打破统一全局吸引子假设
本研究提出了一种基于模拟的框架,可以将单臂策略转换成适用于 N 臂问题的策略,并提供了在离散和连续时间框架下的计算上最优结果,且不需要 UGAP 假设。
PDF
a year ago
使用不安定博弈算法缓存流量不稳定的内容
本文研究在无线边缘 (即基站) 缓存内容以最小化无限时域内的成本问题,将问题建模为不安定老虎机问题,证明了应用 Whittle 指数策略最小化费用的指标性。
PDF
2 years ago
MM
多通道机会式接入:多次播放的不安定赌博模型
本文研究了随机控制问题在机会式频谱访问中的应用,提出了设计一种通道选择策略,以最大化预期折扣总报酬为目标,将问题与该类问题现有文献进行了讨论。
PDF
15 years ago
不静态赌博机问题的近似算法
讨论了一种无法使用贪心指数算法求解的 Feedback MAB 问题,开发出了一种新颖并且通用的双重算法技术,可为不少于 1+epsilon 的解提供 2+epsilon 的近似值,这个技术同样适用于其他不特定的喧闹强盗问题和 POMDP。
PDF
17 years ago
Prev
Next