MMOct, 2020
轨迹检查:一种用于迭代临床医师指导强化学习研究设计的方法
Trajectory Inspection: A Method for Iterative Clinician-Driven Design of Reinforcement Learning Studies
Christina X. Ji, Michael Oberst, Sanjat Kanjilal, David Sontag
TL;DR通过轨迹检查方法,研究人员发现在以强化学习为基础的模型中存在模型偏好,可能与小样本差异有关,期望的治疗结果不切实际,希望通过发现并解决这些问题,得出更加可靠的强化学习策略。