BriefGPT.xyz
Ask
alpha
关键词
finite horizon
搜索结果 - 3
强化学习中抽象和基于潜力的奖励塑形的样本效率研究
利用抽象技术在有限时间内生成 “好” 的潜力函数,分析在 Potential Based Reward Shaping 中有限时间引入的偏差,并在四个不同环境中进行评估,证明我们可以通过简单的全连接网络达到与基于 CNN 的解决方案相同的性
→
PDF
3 months ago
有限时间内动态赌博机渐近最优指数策略
该研究提出了一种基于拉格朗日松弛法的单臂问题集合的无休止多臂赌博机指数策略,利用模拟证明其表现优于现有启发式方法。
PDF
7 years ago
有限时间内带执行延迟的脉冲控制问题
本文研究了带决策滞后和执行延迟的扩散情况下的脉冲控制问题。我们在动态规划原理的适当版本下,通过挂起的订单考虑状态过程的过去依赖关系,导出对应的 Bellman 偏微分方程系统,并通过粘性解的方式得出了对该非标准 PDE 系统的价值函数唯一刻
→
PDF
17 years ago
Prev
Next