May, 2019

非稳态环境下的强化学习

TL;DR本研究提供一种在非平稳环境下最优决策的强化学习方法,包括改进的变点检测算法和最大化长期折扣奖励的强化学习算法,并在非平稳的随机马尔可夫决策过程、传感器能源管理和交通信号控制等问题中验证了其有效性。