BriefGPT.xyz
Ask
alpha
关键词
stochastic policies
搜索结果 - 4
ICLR
S$^2$AC:基于能量的 Stein Soft Actor Critic 强化学习
学习表达性随机策略而不是确定性策略已经被提出,以实现更好的稳定性、采样复杂度和鲁棒性。我们提出了 Stein Soft Actor-Critic (S^2AC),这是一种能够高效学习表达性策略的最大熵强化学习算法,通过使用参数化的 Stei
→
PDF
2 months ago
用于自主车辆行为规划的概率约束随机最短路径双重描述
本文介绍了一个基于约束的随机规划问题,其中利用整数线性规划方法确保了确定性决策,同时为安全性关键的应用提供了约束违规概率的上界。同时还介绍了确定性策略和随机策略的随机舍入过程,并探讨了如何在考虑不同时间步的约束情况下进行 CC-SSP 的推
→
PDF
a year ago
ICLR
更集中化的训练,仍分散化的执行:多智能体条件策略分解
本研究探索了如何在协作多智能体强化学习中融合价值分解和演员 - 评论家,并提出了多智能体条件策略分解 (MACPF) 的方法,以更好地实现部分可观察环境下的学习。同时,通过在不同的合作 MARL 任务中进行实验证明 MACPF 相对于基线的
→
PDF
2 years ago
有限 MDP 的策略梯度方法线性收敛性
本文重新审视了策略梯度法在有限状态和动作 MDPs 中的有限时间分析,并基于与策略迭代的关系展示出许多策略梯度法变体使用大步长成功并达到线性收敛率。
PDF
4 years ago
Prev
Next