Dec, 2018

无探索非策略深度强化学习

TL;DR本文提出了一种新的批量约束强化学习算法,该算法可以从任意固定批量数据中有效学习,为解决强化学习中的一些关键问题提供可能性。