TL;DR论文提出了一种高效的 Model-Based Active eXploration (MAX) 算法用于强化学习中的有效探索,该算法使用前向模型的集合来规划观察新事件的行为,优化代理行为,通过基于贝叶斯的探索估计集合成员之间的未来预测差异衡量新颖性,实验证明在半随机离散环境中 MAX 比强基线算法至少高效一个数量级,能够扩展到高维连续环境。
Abstract
Efficient exploration is an unsolved problem in reinforcement learning. We introduce Model-Based Active eXploration (max), an algorithm that actively explores the environment. It minimizes data required to compre