BriefGPT.xyz
Ask
alpha
关键词
time-varying discounting
搜索结果 - 1
具有时间变化的几何折扣的马尔可夫决策过程
研究了时间变动折扣率的无限时间段马尔可夫决策过程,以一个博弈论的视角看待每一个时间步骤为一个独立决策者,研究了所得到博弈的次游戏最佳均衡点(SPE)以及相关的算法问题。提出了 SPE 的存在性的构造性证明,证明了计算 SPE 的 EXPTI
→
PDF
a year ago
Prev
Next