Oct, 2020

CoinDICE:离线策略下置信区间估计

TL;DR本研究提出了一种新的算法 CoinDICE,用于估计目标策略的价值的置信区间,有效地解决了强化学习中关于行为无关离线评估的问题。