BriefGPT.xyz
Ask
alpha
关键词
feasible policy iteration
搜索结果 - 1
可行策略迭代
本文研究安全强化学习问题,提出了一种名为可行策略迭代算法的间接安全强化学习方法,该算法通过使用一个称为约束衰减函数的可行性函数表示可行域,实现了保证策略的约束和可行性并达到优化目标。实验表明,可行策略迭代算法在经典控制任务和安全场景中能够取
→
PDF
a year ago
Prev
Next