评估强化学习算法在观测性健康设置中的应用

May, 2018

评估强化学习算法在观测性健康设置中的应用

Evaluating Reinforcement Learning Algorithms in Observational Health Settings

Omer Gottesman, Fredrik Johansson, Joshua Meier, Jack Dent, Donghun Lee...

TL;DR探讨评估强化学习算法在医疗保健中的安全性的实质，提供了在评估新型患者治疗方式时，如何设计和评估算法的方法，并描述了如何缓解评估过程中存在的潜在问题。

Abstract

Much attention has been devoted recently to the development of machine learning algorithms with the goal of improving treatment policies in healthcare. →

reinforcement learning clinical decision making treatment policies healthcare data mining

发现论文，激发创造

医疗保健中的强化学习：一项调查

本文综述了加强学习在医疗领域的广泛应用，包括慢性病和危重护理中的动态治疗方案、基于结构化和非结构化临床数据的自动医学诊断以及许多其他控制或调度领域。其中讨论了当前研究中面临的挑战和开放问题，并指出了一些潜在的解决方案和未来研究方向。

Aug, 2019

医生协同决策：近似最优集合值决策强化学习

探讨了在医院设置下在累计奖励相似的情况下使用基于时间差异学习和近似贪婪算法的无模型算法来学习集合值策略的替代目标，并在多个环境下进行了实证研究。

Jul, 2020

自然语言处理中的强化学习综述及在医疗保健领域的应用

本文综述了强化学习在自然语言处理领域的关键技术、挑战、以及在医疗保健中的应用，包括对话系统、机器翻译模型、问答系统、文本摘要和信息提取，并介绍了 RL-NLP 系统中的伦理考虑和偏差。

Oct, 2023

在线强化学习算法使用重采样评估个性化是否实现

该论文介绍了一种基于强化学习和在线学习的数据驱动方法，可以实现用户个性化健康治疗序列的优化。通过案例研究，论文使用重新取样方法对算法个性化进行评估，提高了算法的真实性，对于真实应用也具有参考价值。

Apr, 2023

在临床试验中监测在线强化学习算法的可信度

在线强化学习算法在临床试验中为参与者个性化治疗提供了巨大潜力，然而，在高风险医疗环境中部署在线自主算法使得质量控制和数据质量尤其困难。本文提出了算法保真度作为临床试验中部署在线强化学习算法的关键要求，并强调算法对于 (1) 保护参与者和 (2) 保留数据进行试后分析的科学效用具有责任。我们还提出了一个用于部署前规划和实时监控的框架，以帮助算法开发者和临床研究人员确保算法保真度。为了说明我们框架的实际应用，我们提供了来自于 Oralytics 临床试验的真实案例。自 2023 年春季以来，该试验成功地部署了一种自主的在线强化学习算法，用于个性化行为干预以防止牙疾的风险参与者。

Feb, 2024

基于循环神经网络的监督增强学习在动态治疗推荐中的应用

本文提出一种基于监督强化学习和循环神经网络的动态治疗建议系统，用于处理医疗记录中的复杂关系和部分观测问题，实验结果表明该系统能够有效减少患者死亡率和提高医疗建议的准确性。

Jul, 2018

轨迹检查：一种用于迭代临床医师指导强化学习研究设计的方法

通过轨迹检查方法，研究人员发现在以强化学习为基础的模型中存在模型偏好，可能与小样本差异有关，期望的治疗结果不切实际，希望通过发现并解决这些问题，得出更加可靠的强化学习策略。

Oct, 2020

在医疗保健中，表示学习的实证研究

本文用数据（MIMIC-III dataset）对数名感染病患的多种信息编码结构进行实证研究，旨在确定最佳的状态构建方法以应用于强化学习，而研究结果证明顺序形成的状态表示在批处理设置下有助于有效的政策学习，并验证了更加深入思考的状态表示学习方法在医疗数据序列和部分性质方面的可靠性。

Nov, 2020

医学影像中的深度强化学习：文献综述

这篇论文综述了深度强化学习在医学成像中的应用，分别从深度强化学习的基础知识、医学成像领域的应用及未来展望等方面进行了解析。

Mar, 2021

动态治疗方案中的强化学习需要全面重新审视

通过对超过 17,000 个评估实验的案例研究，我们批判性地检视了当前离线强化学习在动态治疗方案中的应用现状，并提出了评估指标的不一致性、缺乏基线比较、以及现有研究中选择的强化学习表示形式的多样性等关注点。令人惊讶的是，在一些情况下，随机基线方法和奖励设计方法的策略评估手段可以超过离线强化学习算法的性能。这要求我们在未来的动态治疗方案研究中要更加谨慎地进行策略评估和算法开发，并邀请社区进一步讨论。

May, 2024