本文介绍了非确定性策略的新概念,以允许用户在决策过程中具有更多的灵活性,同时将决策限制为近似最优解。我们提供了两种算法来计算离散领域中的非确定性策略,并在一组合成和真实世界问题上研究了这些方法的输出和运行时间。在与人类被提示使用非确定性政策在Web导航任务中表现优异的实验中,我们展示了人类的帮助。
Jan, 2014
本文介绍了一种名为Prognosticator的策略梯度算法,这种算法通过对政策性能的预测来主动搜索一个好的未来策略,并且通过将过去数据进行非均匀重新赋权,使该算法比其他两种在线适应技术更具鲁棒性。
May, 2020
本研究使用不打折扣的强化学习方法,针对马尔可夫决策过程中的漂移非稳定性问题,提出了Sliding Window Upper-Confidence bound for Reinforcement Learning with Confidence Widening算法和Bandit-over-Reinforcement Learning算法,并证明了它们的动态后悔限制及其在参数不确定性情况下的适应性。
Jun, 2020
本文提出了两种针对具有对抗性全信息奖励反馈和未知固定转移核的情境MDPs的无模型策略优化算法POWER和POWER ++,并建立了它们的动态后悔保证。
本研究提出了一种基于权重最小二乘值迭代的非稳态线性马尔可夫决策过程(MDP)最优模型-free算法 OPT-WLSVI,使用指数权重平滑地遗忘过去的数据,与先前的研究相比解决了遗忘策略上的技术差距,并分析了与最佳策略竞争的总遗憾是有上限的。
Oct, 2020
该研究提出了一种针对MDP的决策学习与规划框架,其中决策制定者执行的动作有$m$步的延迟,研究表明使用非恒定的马尔科夫策略,可以在非常大的延迟下实现最大化奖励,并介绍了一种无需状态增强即可解决延迟执行任务的Q-learning风格模型。
Jan, 2021
本文提出了一种结合自动机学习和经典强化学习的算法,用于学习非马尔可夫决策流程中的马尔科夫抽象,并且证明该算法具有PAC保证。
Apr, 2022
本文介绍了一种鲁棒的任意学习方法,该方法结合了贝叶斯推断模型和计算稳健策略的方法,以不确定性马尔科夫决策过程(uMDPs)为基础,并通过实验验证了该方法的有效性。
May, 2022
在处理非平稳环境的序贯决策问题中,我们提出了一种自适应蒙特卡洛树搜索算法,通过学习环境的更新动态来改进决策过程,减少过分悲观的行为并提高决策速度。
Jan, 2024
本文介绍了非累积马尔可夫决策过程(NCMDPs)与标准马尔可夫决策过程(MDPs)之间的一种映射关系,并展示了在强化学习中的应用,包括经典控制、金融组合优化和离散优化问题。通过我们的方法,相较于依赖标准MDPs,我们可以改善最终性能和训练时间。
May, 2024