Oct, 2018

随机原始对偶 Q 学习

TL;DR本文介绍了一种新的基于模型且离线的强化学习算法,叫做随机原始 - 对偶 Q 学习,它能够通过任意行为策略的状态 - 动作观察来寻找接近最优策略,并且与标准的 Q 学习相比展现了更好的离线学习能力。