BriefGPT.xyz
Ask
alpha
关键词
online-aware algorithms
搜索结果 - 1
强化学习中干扰的测量和缓解
本文研究了在价值为基础的强化学习方法中广泛存在的灾难性干扰现象,提供了一种新的干扰度量方法,在多种网络架构下系统评估了这种度量与控制性能不稳定性的相关性,并提出了一类名为 “在线感知” 的算法来减少干扰,并表明它们在多个经典的控制环境中可以
→
PDF
a year ago
Prev
Next