ICLRNov, 2018

学习循环策略网络的有限状态表示

TL;DR本文介绍了一种新技术 ——Quantized Bottleneck Insertion,可以学习到具有限表示的递归神经网络,其结果是递归神经网络的量化表示,该表示可用于分析内存使用和行为的更好理解。通过将此方法应用于合成环境和六个 Atari 游戏,我们发现这些有限表示,在某些情况下令人惊讶地很小,完美的 Pong 策略仅使用 3 个离散内存状态和 10 个观测。此外,我们还展示了这些有限策略表示导致了较好的可解释性。