Jul, 2023

强化学习中干扰的测量和缓解

TL;DR本文研究了在价值为基础的强化学习方法中广泛存在的灾难性干扰现象,提供了一种新的干扰度量方法,在多种网络架构下系统评估了这种度量与控制性能不稳定性的相关性,并提出了一类名为 “在线感知” 的算法来减少干扰,并表明它们在多个经典的控制环境中可以提高稳定性和性能。