Apr, 2024

针对未知情况的调整:重新审视终身强化学习的评估策略

TL;DR本文研究了终身强化学习中的关键问题,通过新的调优和评估方法,在只有百分之一的实验数据用于超参数调整的情况下,发现 DQN 和 Soft Actor Critic 方法表现不佳,而一些保持网络可塑性的算法措施表现出色,并且网络不断学习的能力与百分之一调优下的性能关联密切。