BriefGPT.xyz
Ask
alpha
关键词
safe policy
搜索结果 - 2
安全关键强化学习的概率约束
本文探讨了在概率受限制的强化学习中学习安全策略的问题,并提出了两种算法 ——Safe Policy Gradient-REINFORCE 和 SPG-Actor-Critic 以及 Safe Primal-Dual 算法来解决。通过实验,验
→
PDF
a year ago
通过最小化强鲁棒性基线遗憾实现安全策略改进
该研究论文提出一种基于模型的方法,使用有限数据计算安全策略,并使用已知的准确性保证对系统的不准确动态模型进行分析,以直接最小化关于基线策略的(负)遗憾,从而改进基础策略并在准确动态的情况下连续地使用,在遇到不准确动态的情况下无缝地回退到基线
→
PDF
8 years ago
Prev
Next