Feb, 2024

微调强化学习模型其实是一种遗忘缓解问题

TL;DR通过对 NetHack 和 Montezuma's Revenge 环境的详细实证分析,我们表明标准的知识保留技术缓解了这个问题,从而使我们能够充分利用预训练的能力,特别是在 NetHack 中,在人类僧侣场景中我们实现了新的神经模型的最新成绩,从 5K 分提高到超过 10K 分。