Dec, 2019

AlgaeDICE: 来自任意经验的策略梯度

TL;DR本文提出一种新颖的强化学习算法,利用双重变量不等式技术,通过辅助最优化问题得到二阶鞍点,无需使用重要性加权,实现了从任意行为策略上学习并优化目标策略。