BriefGPT.xyz
Ask
alpha
关键词
formal verification of neural networks
搜索结果 - 1
通过 ε- 重新训练提高政策优化
我们提出了一种名为 ε- 重新训练的探索策略,该策略旨在在保证政策单调改进的同时鼓励一种行为性偏好。我们介绍了一种收集重新训练区域的迭代过程,即智能体没有遵循行为性偏好的状态空间的部分。我们的方法使用逐渐减小的因子 ε 在常规均匀重启状态分
→
PDF
a month ago
Prev
Next