May, 2024

捷足先登:一种无参数的终身强化学习优化器

TL;DRPACE 是一种无需超参数调整和先验知识的参数自由优化器,基于在线凸优化理论解决了终身强化学习中可塑性损失、适应新任务以及分布变化等挑战。实验证明,尽管底层优化问题是非凸和非平稳的,PACE 在 Procgen,Atari 和 Gym Control 环境中表现出色,有效缓解了可塑性损失并快速适应挑战性的分布变化。