Dec, 2023

使用奖赏鞅的深度强化学习控制系统的鲁棒性验证

TL;DR深度强化学习在控制系统领域得到了广泛应用,但其实际应用受到状态扰动的影响,导致系统性能下降。本研究提出了一种基于奖励鞅的鲁棒性验证方法,通过建立数学模型来描述状态扰动对系统性能的影响,为累积奖励问题提供了可靠的数值证明,并证明了奖励鞅可通过神经网络实现和训练,对不同类型的控制策略具有普适性。实验结果表明,所提出的方法的认证界限能有效地包围各种基于深度强化学习的控制系统的仿真结果。