BriefGPT.xyz
大模型
Ask
alpha
关键词
bellman equations
搜索结果 - 3
基于强化学习的路径规划:一种策略迭代方法
该研究针对强化学习参数的设计空间进行了设计空间探索,提出了基于自动调谐器的序数回归方法,可以加速收敛并实现 1.82 倍的峰值加速度和 1.48 倍的平均加速度。
PDF
a year ago
高效非近视序贯实验设计的双筒望远镜
该研究提出了一个基于贝叶斯优化的序列实验设计的新框架 ——BINOCULARS,它可以更有效,更准确地计算实验的最佳方案。
PDF
5 years ago
随机原始对偶方法和强化学习样本复杂性
本文研究了马尔可夫决策过程 (MDP) 的最优策略在线估计问题,并提出了一类基于随机原始对偶法的方法,利用 Bellman 方程的内在极小极大对偶性进行优化。 这些方法具有小的存储空间和低的计算复杂度,通过观察新的状态转移更新值和策略估计的
→
PDF
8 years ago
Prev
Next