ICMLFeb, 2020
强化学习中有解释的离线策略评估:突出具有影响力的状态转移
Interpretable Off-Policy Evaluation in Reinforcement Learning by Highlighting Influential Transitions
Omer Gottesman, Joseph Futoma, Yao Liu, Sonali Parbhoo, Leo Anthony Celi...
TL;DR本文提出了一种混合人工智能系统的方法,该方法可以通过关注数据中对 OPE 估计产生很大影响的观察点,并制定一组选择规则,使领域专家能够分析 OPE 估计的有效性。该方法可以应用在医学模拟和真实世界中的重症监护数据中,可以用于识别评估过程中的限制并使评估更加稳健。