ICMLFeb, 2020

强化学习中有解释的离线策略评估:突出具有影响力的状态转移

TL;DR本文提出了一种混合人工智能系统的方法,该方法可以通过关注数据中对 OPE 估计产生很大影响的观察点,并制定一组选择规则,使领域专家能够分析 OPE 估计的有效性。该方法可以应用在医学模拟和真实世界中的重症监护数据中,可以用于识别评估过程中的限制并使评估更加稳健。