AAAIFeb, 2021

训练韧性 Q - 网络抵御观测干扰

TL;DR本文提出了一种基于因果推断的 DQN 算法 ——CIQ,用于提高在故障干扰下深度强化学习(DRL)的鲁棒性和性能。实验结果表明,CIQ 算法在多个 DQN 环境中能够获得更高的性能和更强的抗干扰能力。