本文提出一种基于监督强化学习和循环神经网络的动态治疗建议系统,用于处理医疗记录中的复杂关系和部分观测问题,实验结果表明该系统能够有效减少患者死亡率和提高医疗建议的准确性。
Jul, 2018
通过提出一种名为模型增强对比强化学习(MCRL)的新型强化学习推荐器,我们解决了离线数据集的稀疏性以及负反馈无法获取的问题,并通过对比学习来优化奖励函数和状态转移函数,实验结果表明该方法在两个现实世界数据集上显著优于现有的离线强化学习和自监督强化学习方法。
Oct, 2023
本文提出了一种强化学习算法,称为 “鲁棒的决策模型算法”,该模型能够同时满足奖励函数的变化和期望回报的最大化。实验证明该算法显著提高了智能体在奖励函数变化时的鲁棒性,同时不降低总体回报。
Apr, 2023
论文探讨自动化强化学习的关键元素和挑战,并讨论自动化强化学习的最新工作、应用和研究方向。
Jan, 2022
在本文中,我们提出了一种新的强化学习框架 - 监控马尔可夫决策过程(Monitored MDPs),该框架解决了强化学习中奖励无法被完全观测到的问题,并讨论了该设置的理论和实践后果,提出了相应的算法。
Feb, 2024
DRL 通过学习个性化决策路径向诊断领域提供机会,可以生成自说明的逐步决策路径,并且在与最先进方法的比较中具有竞争性的正确性。
Apr, 2024
传统的心理健康研究方法包括广义线性模型(GLM)来描述观察到的心理行为测量(问卷摘要得分)的纵向动态。而隐藏马尔可夫模型(HMM)通过有限状态自动机(FSA)的视角应用于行为和神经活动与抑郁之间的关系,以提供更综合和直观的建模和理解框架。
Mar, 2024
本文研究如何自动化减少任务的状态表达,以将通用的智能学习机设定为 MDP 框架,从而扩大许多现有强化学习算法和使用它们的机器人的范围,并开发一种形式化的客观标准作为搜索可行 MDPs 的指导,并在算法中将各个部分整合到一起。
Jun, 2009
个性化机器学习中,我们提出了一种名为 r-MDPs 的框架,通过与一小组代表性策略的交互来满足多样化的用户群体,并同时优化这些策略以最大化整体社会福利。通过两种深度强化学习算法,我们在多个模拟环境中进行了实证研究,展示了这些算法在有限的策略预算下实现有意义的个性化,并具有可扩展性,能够适应更大的策略预算。
Jan, 2024
本文提出了一种基于动态离散选择模型的离线强化学习算法,通过最大似然估计来估计人类行为策略和状态 - 动作价值函数,通过最小化贝尔曼均方误差来恢复人类奖励,然后调用悲观值迭代算法来寻找接近最优的策略。该算法是离线 RLHF 的理论担保,并且在数据集只有单个策略覆盖的情况下,与经典的悲观离线 RL 算法相比,其次优性几乎相同,且具有对分布转移和维度依赖性的理论保证。
May, 2023