ICLRMar, 2019

结合长期未来的强化学习动力学模型学习

TL;DR本文着重于构建一个具有考虑长期未来的模型,并展示如何利用它进行有效规划和探索,通过搜寻模型下的不可能轨迹来设计探索策略,并在两种学习环境中取得了比基线更快更高报酬的效果。