动态治疗方案中的强化学习需要全面重新审视

ICMLMay, 2024

动态治疗方案中的强化学习需要全面重新审视

Reinforcement Learning in Dynamic Treatment Regimes Needs Critical Reexamination

Zhiyao Luo, Yangchen Pan, Peter Watkinson, Tingting Zhu

TL;DR通过对超过 17,000 个评估实验的案例研究，我们批判性地检视了当前离线强化学习在动态治疗方案中的应用现状，并提出了评估指标的不一致性、缺乏基线比较、以及现有研究中选择的强化学习表示形式的多样性等关注点。令人惊讶的是，在一些情况下，随机基线方法和奖励设计方法的策略评估手段可以超过离线强化学习算法的性能。这要求我们在未来的动态治疗方案研究中要更加谨慎地进行策略评估和算法开发，并邀请社区进一步讨论。

Abstract

In the rapidly changing healthcare landscape, the implementation of offline reinforcement learning (RL) in dynamic treatment regimes (DTRs) presents a mix of unprecedented opportunities and challenges. This position paper offers a critical examination of the current status of offline R

offline reinforcement learning dynamic treatment regimes evaluation metrics markov decision process policy evaluation

发现论文，激发创造

DTR-Bench：基于强化学习的动态治疗方案的用于环境和基准平台

强化学习在个性化医学中优化动态治疗方案方面有巨大潜力，但在模拟不同医疗场景和对 RL 算法的综合分析方面存在挑战，因此提出了 DTR-Bench，基于 4 个不同的仿真环境，针对常见 DTR 应用进行基准测试。实验结果表明，部分 RL 算法在噪声和患者变异存在时性能下降，且使用时间观察表示并不能一致地提高 DTR 设置中的性能。研究强调了发展强大、适应性强的 RL 算法的必要性，以有效管理这些复杂性以提升个体化医疗。

May, 2024

基于核的分布式 Q-Learning：一种针对动态治疗方案的可扩展强化学习方法

本篇论文提出了一种新的分布式 Q-learning 算法，用于生成动态治疗规则 (DTRs)。该算法可有效地处理大量的电子病历数据，并在临床癌症治疗方面表现出比传统算法更好的预测精度和计算成本。

Feb, 2023

使用策略适应去交织 Actor-Critic 网络以支持动态治疗方案

通过使用新的去混淆 actor-critic 网络模型，基于电子健康记录的强化学习机制的动态治疗模式可获得更好的患者个体化通气治疗决策，从而提高患者的预后。

May, 2022

评估强化学习算法在观测性健康设置中的应用

探讨评估强化学习算法在医疗保健中的安全性的实质，提供了在评估新型患者治疗方式时，如何设计和评估算法的方法，并描述了如何缓解评估过程中存在的潜在问题。

May, 2018

基于循环神经网络的监督增强学习在动态治疗推荐中的应用

本文提出一种基于监督强化学习和循环神经网络的动态治疗建议系统，用于处理医疗记录中的复杂关系和部分观测问题，实验结果表明该系统能够有效减少患者死亡率和提高医疗建议的准确性。

Jul, 2018

临床医生的一致性评估：基于动态模型预测败血症疾病进展

利用强化学习生成重症监护病房中脓毒症患者的治疗方案的研究表明，临床医生的建议往往是偶然的，并且临床操作的多样性对疾病进展的测量效果不明显。

Apr, 2024

医疗保健中的强化学习：一项调查

本文综述了加强学习在医疗领域的广泛应用，包括慢性病和危重护理中的动态治疗方案、基于结构化和非结构化临床数据的自动医学诊断以及许多其他控制或调度领域。其中讨论了当前研究中面临的挑战和开放问题，并指出了一些潜在的解决方案和未来研究方向。

Aug, 2019

经修剪多目标深度 Q 学习方法实现可靠的危重病护理政策

通过剪枝和训练最终模型两步，成功将中间生物标志信号融入到奖励范式中，在不损害主要结果的情况下，从中解出有价值的信息指导学习过程，从而在模拟环境和实际患者记录中成功开发了一种有效的离线强化学习方法，为开发可靠的策略迈出了一步。

Jun, 2023

离线基于模型的强化学习中设计选择的重新审视

本研究比较不同的不确定性启发式方法，并设计新的协议来研究它们与其他超参数的交互作用，使用这些洞见，我们展示了使用 Bayesian 优化选择这些关键超参数可以产生优越的配置，这与现有手动调整的最先进方法大不相同，从而实现了大幅度的强化学习。

Oct, 2021

动态治疗方案的惩罚式 Q 学习

该论文提出一种基于惩罚的 Q 学习框架（PQ-learning）来解决治疗效应参数不规则性的统计推断问题，并提出了相应的个体选择方法来将这一框架应用于动态治疗决策制定中，结果证明其在计算和推论方面均具有优越性。该方法已经应用于抑郁症临床试验研究。

Aug, 2011