BriefGPT.xyz
Ask
alpha
关键词
adaptive scaling mechanism
搜索结果 - 1
AAAI
自适应信任域策略优化:正则化 MDPs 的全局收敛和更快速率
本文考虑在强化学习中使用的一种流行算法 Trust region policy optimization(TRPO)与传统的凸分析中自然的信任域方法之间的关系,证明了 TRPO 的适应性调节机制实际上是传统信任域方法的 RL 版本,并在规则
→
PDF
5 years ago
Prev
Next