Jun, 2019

DualDICE:行为无关的折现稳态分布修正估计

TL;DR本研究提出了一种名为DualDICE的算法,用于在强化学习应用中的政策评估和训练过程中,对固定数据集进行修正,从而提高精度和性能。