在线强化学习算法口腔自我护理支持中的奖励设计

Aug, 2022

在线强化学习算法口腔自我护理支持中的奖励设计

Reward Design For An Online Reinforcement Learning Algorithm Supporting Oral Self-Care

Anna L. Trella, Kelly W. Zhang, Inbal Nahum-Shani, Vivek Shetty, Finale Doshi-Velez...

TL;DR本文开发了基于强化学习的算法，用于优化移动提示的发送，以鼓励口腔自我护理行为。研究致力于解决算法中的延迟效应问题，通过设计质量奖励并优化超参数选择，最终被部署在提供行为策略以提高口腔健康的 Oralytics 应用程序上。

Abstract

dental disease is one of the most common chronic diseases despite being largely preventable. However, professional advice on optimal oral hygiene practices is often forgotten or abandoned by patients. Therefore p

dental disease oral hygiene reinforcement learning mobile-based prompts oralytics

发现论文，激发创造

Oralytics 强化学习算法

通过健康的口腔自我护理行为（OSCB）预防口腔疾病是可能的，但实践上并不一致。我们开发了 Oralytics，这是一个在线强化学习（RL）算法，用于优化提供个性化干预提示以改善 OSCB。在本文中，我们提供了使用先前数据、领域专业知识和模拟测试床中的实验所作的算法设计决策的完整概述。最终确定的 RL 算法已经部署在 2023 年秋到 2024 年夏进行的 Oralytics 临床试验中。

Jun, 2024

在临床试验中监测在线强化学习算法的可信度

在线强化学习算法在临床试验中为参与者个性化治疗提供了巨大潜力，然而，在高风险医疗环境中部署在线自主算法使得质量控制和数据质量尤其困难。本文提出了算法保真度作为临床试验中部署在线强化学习算法的关键要求，并强调算法对于 (1) 保护参与者和 (2) 保留数据进行试后分析的科学效用具有责任。我们还提出了一个用于部署前规划和实时监控的框架，以帮助算法开发者和临床研究人员确保算法保真度。为了说明我们框架的实际应用，我们提供了来自于 Oralytics 临床试验的真实案例。自 2023 年春季以来，该试验成功地部署了一种自主的在线强化学习算法，用于个性化行为干预以防止牙疾的风险参与者。

Feb, 2024

数字干预强化学习算法设计：实施前指南

该研究介绍了如何使用预测性、可计算性和稳定性（PCS）框架设计在线强化学习算法来个性化数字干预，提供了指南并展示了如何在模拟环境中评估候选算法，以加强现实时间限制和用户动态环境的稳定性，从而在 Oralytics 项目中改善用户的口腔健康，预计 2022 年底进行实地测试。

Jun, 2022

评估强化学习算法在观测性健康设置中的应用

探讨评估强化学习算法在医疗保健中的安全性的实质，提供了在评估新型患者治疗方式时，如何设计和评估算法的方法，并描述了如何缓解评估过程中存在的潜在问题。

May, 2018

在线强化学习算法使用重采样评估个性化是否实现

该论文介绍了一种基于强化学习和在线学习的数据驱动方法，可以实现用户个性化健康治疗序列的优化。通过案例研究，论文使用重新取样方法对算法个性化进行评估，提高了算法的真实性，对于真实应用也具有参考价值。

Apr, 2023

医疗保健中的强化学习：一项调查

本文综述了加强学习在医疗领域的广泛应用，包括慢性病和危重护理中的动态治疗方案、基于结构化和非结构化临床数据的自动医学诊断以及许多其他控制或调度领域。其中讨论了当前研究中面临的挑战和开放问题，并指出了一些潜在的解决方案和未来研究方向。

Aug, 2019

动态治疗方案中的强化学习需要全面重新审视

通过对超过 17,000 个评估实验的案例研究，我们批判性地检视了当前离线强化学习在动态治疗方案中的应用现状，并提出了评估指标的不一致性、缺乏基线比较、以及现有研究中选择的强化学习表示形式的多样性等关注点。令人惊讶的是，在一些情况下，随机基线方法和奖励设计方法的策略评估手段可以超过离线强化学习算法的性能。这要求我们在未来的动态治疗方案研究中要更加谨慎地进行策略评估和算法开发，并邀请社区进一步讨论。

May, 2024

二人强化学习

本文介绍了一种基于上下文因素和目标人以及他们的照顾伙伴的过去反应的在线强化学习算法 - 双人强化学习，旨在个性化干预传递，提高社会支持。通过在玩具场景和移动健康研究中收集的实际数据的模拟研究，我们展示了双人强化学习的实证绩效。

Aug, 2023

离线强化学习用于 1 型糖尿病患者血糖更安全的控制

本文评估了离线强化学习方法，用于开发临床有效的药量策略，通过对 UVA/Padova 血糖动力学模拟器内的九个虚拟患者的血糖控制进行了研究，发现离线强化学习可以显著提高健康血糖范围内的时间，而不增加低血糖事件。

Apr, 2022

将移动健康用户建模为强化学习智能体

本文介绍了一个框架，通过提供不同类型的干预措施，帮助使用移动健康技术的患者在日常生活中采取或保持健康的行为，同时优化了马尔可夫决策过程的参数，以解决人类决策过程中可能出现的问题。

Dec, 2022