ICLRMar, 2019
结合长期未来的强化学习动力学模型学习
Learning Dynamics Model in Reinforcement Learning by Incorporating the Long Term Future
Nan Rosemary Ke, Amanpreet Singh, Ahmed Touati, Anirudh Goyal, Yoshua Bengio...
TL;DR本文着重于构建一个具有考虑长期未来的模型,并展示如何利用它进行有效规划和探索,通过搜寻模型下的不可能轨迹来设计探索策略,并在两种学习环境中取得了比基线更快更高报酬的效果。