ICLRJul, 2020

序贯决策的假设解释学习

TL;DR通过对专家行为的建模和学习,该论文提出了一种可解释的决策制定方法,使用 “假设” 结果的偏好来模拟专家的奖励函数,该方法将反事实推理集成到批量反向强化学习中,能够自然地适应历史记录依赖的环境,同时也满足现实世界决策制定的约束条件。