BriefGPT.xyz
Ask
alpha
关键词
randomized policy
搜索结果 - 2
随机多臂赌博机的有限遗憾
研究解决在已知最优的选择和最小间隔值时如何制定随机化策略,以解决随机多臂赌博问题中可能发生的后悔问题,并探讨了其下界和最优解等问题。
PDF
11 years ago
非折现瞬态马尔科夫模型的风险厌恶控制
利用马尔科夫风险度量来制定风险规避版本的马尔可夫过程的总成本问题,得出风险规避动态规划方程,并证明当使用风险度量时,随机策略可能比确定性策略更好。最后利用一个最优停止问题和器官移植问题来说明结果。
PDF
12 years ago
Prev
Next