May, 2024

自适应探索的近端策略优化

TL;DR探讨了在强化学习环境下的探索与利用权衡,提出了自适应探索的近端策略优化算法(axPPO),该方法通过根据智能体的最近表现动态调整探索幅度,提高了学习效率,特别是在学习过程开始阶段需要大量探索性行为时。