ICMLMay, 2024

动态治疗方案中的强化学习需要全面重新审视

TL;DR通过对超过 17,000 个评估实验的案例研究,我们批判性地检视了当前离线强化学习在动态治疗方案中的应用现状,并提出了评估指标的不一致性、缺乏基线比较、以及现有研究中选择的强化学习表示形式的多样性等关注点。令人惊讶的是,在一些情况下,随机基线方法和奖励设计方法的策略评估手段可以超过离线强化学习算法的性能。这要求我们在未来的动态治疗方案研究中要更加谨慎地进行策略评估和算法开发,并邀请社区进一步讨论。