Aug, 2024
祖先强化学习:将零阶优化与遗传算法统一用于强化学习
Ancestral Reinforcement Learning: Unifying Zeroth-Order Optimization and
Genetic Algorithms for Reinforcement Learning
TL;DR本研究解决了当前强化学习领域在策略优化中的局限性,提出了一种新颖的方法——祖先强化学习(ARL),该方法将零阶优化的鲁棒梯度估计与遗传算法的探索能力相结合。研究结果表明,ARL在政策搜索中引入了KL正则化,从而显著提升了策略探索的效率,对强化学习的应用具有重要影响。