Jun, 2023

增强强化学习的泛化性和可塑性以提高样本效率

TL;DR通过对 off-policy RL 算法强化学习算法进行实证分析,我们发现,Sharpness-Aware Minimization 和 reset 机制的联合使用可以提高网络的适应性和计算效率,具有较高的泛化性和可塑性。