May, 2024

CIER:一种基于因果推断的深度强化学习经验回放新方法

TL;DR在深度强化学习(DRL)的训练过程中,面对训练量和模型复杂度的增加,如何提高数据利用和 DRL 训练的解释性仍然是一个具有挑战性的问题。本文通过关注时间序列中的时间维度内的时间相关性来解决这些挑战,并提出了一种将多变量时间序列分割为有意义子序列并基于这些子序列表示时间序列的新方法。此外,利用子序列进行因果推断来识别对训练结果有重要影响的基本因果因素,并设计了一个模块在 DRL 训练过程中提供因果反馈。多个实验证明了我们方法在常见环境中的可行性,证实了其增强 DRL 训练有效性以及在训练过程中提供一定程度的解释性的能力。此外,我们通过优先级经验回放算法扩展了我们的方法,并实验证实了方法的持续有效性。