AAAIDec, 2021

深度强化学习策略跨 MDP 学习共享对抗特征

TL;DR本文探讨和提出了一种框架,用于研究深度强化学习中跨状态和跨马尔可夫决策流程(MDPs)的决策边界和损失景观相似性,并发现高敏感性方向支持非鲁棒特征在训练环境中的共享,这一结果揭示了深度强化学习的基本特性,为构建稳健可靠的深度强化学习代理迈出了实质性的步伐。