评估美国终结HIV流行计划的多智能体强化学习框架

Nov, 2023

评估美国终结HIV流行计划的多智能体强化学习框架

A Multi-Agent Reinforcement Learning Framework for Evaluating the U.S. Ending the HIV Epidemic Plan

Dinesh Sharma, Ankit Shah, Chaitra Gopalappa

TL;DR通过多代理强化学习模型，本研究在考虑州际流行病学的相互作用的环境下，提出了用于特定司法管辖区决策分析的模型，并通过对加利福尼亚州和佛罗里达州司法管辖区的实验分析发现，MARL的最优决策与单代理强化学习生成的决策显著不同，突显了司法管辖区变异和相互作用的影响。本研究通过对HIV的全面建模和状态空间、运动空间以及奖励函数的构建，展示了MARL在指导公共卫生政策方面的优势和适用性，并提供了扩展到国家级以指导“结束HIV流行”倡议的框架。

Abstract

Human immunodeficiency virus (hiv) is a major public health concern in the United States, with about 1.2 million people living with hiv and 35,000 newly infected each year. There are considerable →

发现论文，激发创造

评估强化学习算法在观测性健康设置中的应用

探讨评估强化学习算法在医疗保健中的安全性的实质，提供了在评估新型患者治疗方式时，如何设计和评估算法的方法，并描述了如何缓解评估过程中存在的潜在问题。

May, 2018

医疗保健中的强化学习: 一项调查

本文综述了加强学习在医疗领域的广泛应用，包括慢性病和危重护理中的动态治疗方案、基于结构化和非结构化临床数据的自动医学诊断以及许多其他控制或调度领域。其中讨论了当前研究中面临的挑战和开放问题，并指出了一些潜在的解决方案和未来研究方向。

Aug, 2019

深度强化学习用于大规模疫情控制

本文使用深度强化学习方法，针对流感大流行背景下预防策略自动学习的挑战性进程，建立新的流行病学元群体模型，利用极近政策优化算法学习单一区域的预防策略，并在 11 个区域的联合控制 policy 中考虑区域间的协作，从而有效应对具有大状态空间的复杂流行病学模型。

Mar, 2020

COVID-19缓解政策优化的强化学习

本研究使用强化学习和基于代理的模拟器，探讨如何优化减轻COVID-19冲击的策略，以最小化其对经济的影响，同时避免超过医院的收治能力。该研究结果验证了其用于仿真传染病传播的精细程度以及强化学习方法在实际中的表现。

Oct, 2020

利用强化学习探究多目标 COVID-19 缓解政策的帕累托前沿

本研究使用深度多目标强化学习方法，以 Pareto Conditioned Networks (PCN) 算法为基础，尝试学习并平衡 COVID-19 流行病的多种防控策略，涉及病例、医院感染率、社会负担等多个指标，为疫情决策提供了重要洞见。

Apr, 2022

使用深度确定性策略梯度的大规模基于代理的流行病学模型的流行病控制

本研究基于深度确定性策略梯度（DDPG）框架，使用大规模（100,000个个体）的流行病学代理模拟，进行多目标优化，确定了最佳的封锁和疫苗接种策略，以在经济活动的基础模拟中实现最优经济和平衡健康目标。

Apr, 2023

应对流行期间教育场所的安全占用策略的强化学习

采用强化学习方法的SafeCampus工具在教育机构中模拟疫情扩散和探索强化学习算法，平衡最小化感染与最大化线下交流的策略。

Dec, 2023

公共卫生中动态不休、多臂老虎机任务的决策语言模型（DLM）

通过使用自然语言命令，提出了一种动态调整政策结果的决策语言模型(DLM)，该模型能够适应具有挑战性的公共卫生环境中的人流量调度任务。

Feb, 2024

SIR-RL：新兴市场和发展中经济体流行病爆发的优化政策控制强化学习

本研究介绍了一种创新和伦理的策略来在传染病爆发期间平衡公共卫生和经济稳定，通过引入一种新型强化学习框架，该框架利用SIR模型，整合了封锁措施（通过严格指数）和疫苗接种策略来模拟疾病动态。

Apr, 2024

通过标准基线和评估披露离线多智体增强学习中进展的幻觉

离线多智能体强化学习（MARL）是一个备受期待的新兴领域，然而，当前离线MARL研究存在基准和评估协议的不一致性问题，这使得准确评估进展、信任新提出的创新以及研究人员在前人工作上构建变得困难。本文首先通过代表性的离线MARL研究，确认了现有方法测量新算法性能的显著缺陷。其次，通过与这些前人工作的直接比较，我们展示了简单、良好实施的基准方法能够在各种任务中达到最新水平结果。具体而言，在前人工作中的47个数据集中的35个（约占75%）中，我们达到或超越了当前号称的最优结果。令人惊讶的是，我们的基准方法通常远远优于这些更复杂的算法。最后，我们通过引入简便易行的评估标准方法并提供基准实现的具有统计学可靠性的结果，纠正了这些前人工作中的缺陷，并为未来的比较研究提供了有用的参考。我们的提议包括简单、合理易行的步骤，结合可靠的基准和对比结果，可能会大大提高离线MARL的实证科学水平。

Jun, 2024