具有非稳态马尔可夫策略的延迟环境下的决策行为
本文介绍了非确定性策略的新概念,以允许用户在决策过程中具有更多的灵活性,同时将决策限制为近似最优解。我们提供了两种算法来计算离散领域中的非确定性策略,并在一组合成和真实世界问题上研究了这些方法的输出和运行时间。在与人类被提示使用非确定性政策在Web导航任务中表现优异的实验中,我们展示了人类的帮助。
Jan, 2014
本研究旨在解决在非恒定随机环境下的鲁棒零-shot规划问题,通过引入定义了特定类别的马尔可夫决策过程来进行计算建模,并提出了一种零-shot基于模型的风险敏感树搜索算法。
Apr, 2019
该研究提出了延迟感知的马尔可夫决策过程的正式定义,并证明它可以通过使用马尔可夫奖励过程中的增强状态转化为标准MDP。我们开发了一个延迟感知的模型驱动强化学习框架,可以将多步延迟纳入学习到的系统模型中,而无需进行学习。 与Gym和MuJoCo平台进行的实验表明,与非策略模型无关的强化学习方法相比,所提出的延迟感知模型驱动算法在训练和各种延迟时间系统之间具有更高的效率和可传递性。
May, 2020
本文介绍了一种名为Prognosticator的策略梯度算法,这种算法通过对政策性能的预测来主动搜索一个好的未来策略,并且通过将过去数据进行非均匀重新赋权,使该算法比其他两种在线适应技术更具鲁棒性。
May, 2020
本研究提出了一种基于平均报酬MDPs的学习和规划算法,其中包括第一种无参考状态的普遍证明收敛的无模型控制算法、第一个证明收敛的无政策自由预测算法,以及第一个离线学习算法,其收敛于实际值函数而不是值函数增加一个偏移量。在使用时间差错错误而不是常规错误更新平均报酬估计时,我们的所有算法都基于此。
Jun, 2020
本文运用离散事件系统监控控制理论的概念,提出一种方法用于在有限状态的马尔可夫决策过程中,学习最优控制策略,并利用奖励机器的发展来处理状态限制。通过给定一个例子来阐明其应用性并在此设置中展示了仿真结果。
Jan, 2022
在处理非平稳环境的序贯决策问题中,我们提出了一种自适应蒙特卡洛树搜索算法,通过学习环境的更新动态来改进决策过程,减少过分悲观的行为并提高决策速度。
Jan, 2024
该研究介绍了随机延迟执行马尔可夫决策过程的新形式,通过在马尔可夫决策类中进行策略搜索,提高了性能,并使用DEZ算法优化了马尔可夫决策过程的采样效率。
Apr, 2024