AAAIAug, 2019

网络中的迷信:深度强化学习玩欺骗性游戏

TL;DR本研究通过在四个具有欺骗性的游戏中测试广泛使用的异步 Actor-Critic 算法来更好地表征深度强化学习中失败的模式和原因,并发现这些游戏可靠地欺骗深度强化学习器,进一步提高这些算法的应用价值。