Jul, 2022

基于 Actor-Critic 的不当强化学习

TL;DR提出了两种基于强化学习的算法,分别是基于策略梯度的方法和基于 actor-critic 的方法,通过在动态环境下优化控制策略,针对一个给定的目标环境,能够在很少的试验次数内生成一个良好的控制器。多个不匹配且可能是模拟环境下学习来的基本控制器,混合并组合使之稳定控制。