使用隐马尔可夫模型的强化学习揭示决策动态

Jan, 2024

使用隐马尔可夫模型的强化学习揭示决策动态

Reinforcement Learning with Hidden Markov Models for Discovering Decision-Making Dynamics

Xingche Guo, Donglin Zeng, Yuanjia Wang

TL;DR利用强化学习隐藏马尔可夫模型的新框架，分析了重性抑郁障碍患者在基于奖励的决策制定中的参与度与大脑活动之间的关联。

Abstract

major depressive disorder (MDD) presents challenges in diagnosis and treatment due to its complex and heterogeneous nature. Emerging evidence indicates that reward processing abnormalities may serve as a behavior

major depressive disorder reward processing reinforcement learning learning strategies probabilistic reward task

发现论文，激发创造

基于循环神经网络的监督增强学习在动态治疗推荐中的应用

本文提出一种基于监督强化学习和循环神经网络的动态治疗建议系统，用于处理医疗记录中的复杂关系和部分观测问题，实验结果表明该系统能够有效减少患者死亡率和提高医疗建议的准确性。

Jul, 2018

强化学习增强的对比模型用于顺序推荐

通过提出一种名为模型增强对比强化学习（MCRL）的新型强化学习推荐器，我们解决了离线数据集的稀疏性以及负反馈无法获取的问题，并通过对比学习来优化奖励函数和状态转移函数，实验结果表明该方法在两个现实世界数据集上显著优于现有的离线强化学习和自监督强化学习方法。

Oct, 2023

针对奖励转移的稳健决策导向学习

本文提出了一种强化学习算法，称为 “鲁棒的决策模型算法”，该模型能够同时满足奖励函数的变化和期望回报的最大化。实验证明该算法显著提高了智能体在奖励函数变化时的鲁棒性，同时不降低总体回报。

Apr, 2023

自动强化学习概述

论文探讨自动化强化学习的关键元素和挑战，并讨论自动化强化学习的最新工作、应用和研究方向。

Jan, 2022

监控的马尔可夫决策过程

在本文中，我们提出了一种新的强化学习框架 - 监控马尔可夫决策过程（Monitored MDPs），该框架解决了强化学习中奖励无法被完全观测到的问题，并讨论了该设置的理论和实践后果，提出了相应的算法。

Feb, 2024

使用电子健康记录的个性化诊断决策路径的深度强化学习：贫血和系统性红斑狼疮的比较研究

DRL 通过学习个性化决策路径向诊断领域提供机会，可以生成自说明的逐步决策路径，并且在与最先进方法的比较中具有竞争性的正确性。

Apr, 2024

利用情绪处理的有限状态研究晚年心理健康

传统的心理健康研究方法包括广义线性模型（GLM）来描述观察到的心理行为测量（问卷摘要得分）的纵向动态。而隐藏马尔可夫模型（HMM）通过有限状态自动机（FSA）的视角应用于行为和神经活动与抑郁之间的关系，以提供更综合和直观的建模和理解框架。

Mar, 2024

特征强化学习：第一部分：非结构化 MDPs

本文研究如何自动化减少任务的状态表达，以将通用的智能学习机设定为 MDP 框架，从而扩大许多现有强化学习算法和使用它们的机器人的范围，并开发一种形式化的客观标准作为搜索可行 MDPs 的指导，并在算法中将各个部分整合到一起。

Jun, 2009

具有策略预算的个性化强化学习

个性化机器学习中，我们提出了一种名为 r-MDPs 的框架，通过与一小组代表性策略的交互来满足多样化的用户群体，并同时优化这些策略以最大化整体社会福利。通过两种深度强化学习算法，我们在多个模拟环境中进行了实证研究，展示了这些算法在有限的策略预算下实现有意义的个性化，并具有可扩展性，能够适应更大的策略预算。

Jan, 2024

借助人类反馈的强化学习：通过悲观主义学习动态选择

本文提出了一种基于动态离散选择模型的离线强化学习算法，通过最大似然估计来估计人类行为策略和状态 - 动作价值函数，通过最小化贝尔曼均方误差来恢复人类奖励，然后调用悲观值迭代算法来寻找接近最优的策略。该算法是离线 RLHF 的理论担保，并且在数据集只有单个策略覆盖的情况下，与经典的悲观离线 RL 算法相比，其次优性几乎相同，且具有对分布转移和维度依赖性的理论保证。

May, 2023