上下文马尔可夫决策过程
本研究介绍了一种新的强化学习框架:动态上下文马尔可夫决策过程(DCMDPs),着重关注于处理非马尔可夫环境的情况。该模型利用聚合函数确定上下文转换,使得指数与历史长度的依赖关系得到破解。作者还展现了在基于该模型的算法上的实现效果。实验根据 MovieLens 数据开展,主要探讨了针对推荐任务变化的用户行为的模式研究
Feb, 2023
本文提出了一种基于上下文的马尔可夫决策过程增强学习算法,用于医疗保健中的治疗决策。算法基于平滑性假设进行学习,并给出了 PAC 边界。在上下文可线性组合的情况下,基于 KWIK 学习技术,我们提供了一个 PAC 学习算法。
Nov, 2017
该论文研究了上下文马尔可夫决策过程(CMDPs)在线性函数逼近模型下的性质,提出了创新的基于模型的算法,并证明了其在样本复杂度方面的优越性。比较两种模型的结果表明,上下文变化的特征比所有上下文共享表示在线性 CMDPs 中具有更好的样本效率。
Feb, 2024
我们介绍了一种基于情境马尔可夫决策过程(CMDP)的双层优化策略模型(BO-CMDP),该模型可以看作是领导者和随机情境共同决定多个马尔可夫决策过程(MDP)的设定,在各种应用中寻求最佳决策策略,进而应用于 MDP 模型设计、税务设计、奖励塑造和动态机制设计等领域。我们提出了一种基于梯度下降的随机超级策略(HPGD)算法用于求解 BO-CMDP 问题,并证明了其收敛性。该算法只利用随从者的轨迹观察,使得随从者可以使用任何训练过程而领导者无需了解具体算法,使得该模型适用于各种实际应用场景。我们还考虑了领导者能够影响随从者训练的情形,并提出了一种加速算法。我们通过实验证明了我们算法的性能。
Jun, 2024
本文提出了一种新的框架 Configurable Markov Decision Processes (Conf-MDPs),以建立环境参数配置与学习代理之间的交互模型,并通过 Safe Policy-Model Iteration (SPMI) 算法,共同自适应优化策略与环境配置,实验结果表明该方法对提高学习策略的性能有益。
Jun, 2018
本文提出采用 CMDP 框架和模型规划相结合的学习算法,解决了在线商业活动中如何高效地分配奖励从以往的历史订单数据中学习策略的问题。实验结果表明了本方法的有效性。
Mar, 2023
本研究通过引入基于约束马尔可夫决策过程(CMDP)的训练框架,允许用户对生成的摘要进行特定属性(例如长度限制)的控制,该框架旨在通过奖励函数和一组约束来提高摘要生成的可控性。实验结果表明,我们的 CMDP 框架有助于生成具有信息量的摘要,并符合用户对属性的要求。
Aug, 2021
本文基于贝叶斯方法和变分推断,通过运用适合马尔科夫过程建模的粘性 HDP 先验,提出了一种处理具有不可观测可变上下文、马尔科夫上下文演化和突发性上下文变化的情境相关强化学习问题的框架,并且在运用了上述框架后,成功地实现了在一些开放环境下的较高效政策学习,这也是其他同类方法做不到的。
Feb, 2022
本文提出了一种从上下文马尔科夫决策过程到离线密度估计的高效、近似最优的转化算法,同时解决了无结构假设的模型类 CMDPs。
May, 2024