Feb, 2024

用于带有二次奖励的强化学习的稳态误差补偿

TL;DR该研究提出了一种在强化学习中选择奖励函数的方法,通过将积分项引入二次型奖励函数中,使得强化学习算法在考虑长期奖励的同时,有效减小稳态误差并实现系统状态的平稳变化。