ICMLApr, 2020

强化学习中的惊奇最小化泛化

TL;DR在深度强化学习算法中,泛化仍然是一个具有挑战性的问题,本研究提出并评估了一个意外最小化代理,通过从一个简单的密度模型中学习到的额外奖励,在提供熵和随机性的程序生成游戏环境中呈现出鲁棒性。