具有外部时间进程的马尔可夫决策过程
文章探讨了外部中断对强化学习的影响,提出了 TerMDP 框架并应用于驾驶和 MinAtar 测试中,提出了一种基于动态折扣因子和置信区间的高效算法,并与多种基准方法相比较获得了显著提升
May, 2022
论文讨论了一种名为 CMDP 的新模型,可模拟顾客在与网站交互时的行为,并基于此行为决定顾客特征,优化交互。作者提出了一系列算法,可以学习潜在的模型和上下文,并优化 CMDPs。
Feb, 2015
通过 Hawkes 过程建立了异步离散事件的环境动力学模型,并开发了一种基于模型的强化学习算法,用于解决社交媒体、金融和健康信息学中广泛存在的顺序决策问题。
Jan, 2022
在本文中,我们提出了一种新的强化学习框架 - 监控马尔可夫决策过程(Monitored MDPs),该框架解决了强化学习中奖励无法被完全观测到的问题,并讨论了该设置的理论和实践后果,提出了相应的算法。
Feb, 2024
此篇论文探讨了在未知、随机环境中,通过建立模型、构造符合某些临时逻辑规则要求的 MDP,并通过 PAC-MDP 的方法,利用数据、空间和时间进行迭代更新,得到了一个在一定条件下接近最优的策略,从而达到在给定规则下最大化概率的目的。
Apr, 2014
本文提出了一种新的框架 Configurable Markov Decision Processes (Conf-MDPs),以建立环境参数配置与学习代理之间的交互模型,并通过 Safe Policy-Model Iteration (SPMI) 算法,共同自适应优化策略与环境配置,实验结果表明该方法对提高学习策略的性能有益。
Jun, 2018
在处理非平稳环境的序贯决策问题中,我们提出了一种自适应蒙特卡洛树搜索算法,通过学习环境的更新动态来改进决策过程,减少过分悲观的行为并提高决策速度。
Jan, 2024
通过引入新的时间约束鲁棒马尔科夫决策过程(TC-RMDP)表达方式,考虑到多因素、相关性和时变干扰,该研究重新审视了鲁棒强化学习中的传统假设,为发展更实际、更真实的强化学习应用开辟了新的路径,同时在时间受限环境下,在保持鲁棒性的同时,取得了性能和鲁棒性之间的高效平衡。
Jun, 2024