非马尔可夫奖励强化学习
该研究提出了一个软件平台 NMRDPP(Non-Markovian Reward Decision Process Planner)用于开发和实验决策理论计划的相关方法,其中包括基于现有和新方法的一系列方法,比如基于时间逻辑的非马尔可夫奖励函数的紧凑规范,启发式搜索和结构化方法,并通过 NMRDPP 比较这些方法并确定影响其性能的某些问题特征。
Sep, 2011
我们提出了一种新颖的强化学习方法,用于实现基于 LTL$_f$(有限轨迹线性时态逻辑)的非马尔可夫奖励,通过 LTL$_f$ 到 MDPs(马尔可夫决策过程)的线性复杂度编码,利用自动机结构(与 LTL$_f$ 规范语义等价)的优先经验回放技术来改善训练过程,在多个引入非马尔可夫任务的基准问题上进行经验证明了我们方法的可行性和有效性。
Oct, 2023
利用知识表示和自动机结构,本文提出了一种自动发现有用状态抽象的端对端算法,用于学习非 Markov 领域下优化策略,相较于最先进的强化学习算法,能够在更少的环境样本下得到更优的结果。
Jan, 2023
本文提出了在非 Markovian、非 ergodic 且只部分可观察的环境下进行强化学习的问题。作者建立了贝叶斯强化学习代理的负面结果,并证明 Thompson 采样在随机环境中是渐进最优的。此外,作者构建了一个大但可计算的类,展示了基于 Thompson 采样的代理在这个类中收敛于任意未知可计算多智能体环境中的纳什均衡。
Nov, 2016
从专家行为中直接推断出奖励机制(RM)的贝叶斯逆强化学习(BIRL)框架,以非 Markovian 奖励函数为基础进行了重大改进,新的奖励空间定义,将专家示范调整为包括历史,展示了计算奖励后验的方法,并提出了一种模拟退火的新修改方案来最大化后验,通过优化其推断的奖励表现出良好性能,并与学习严格二值非 Markovian 奖励的现有方法进行了有利比较。
Jun, 2024
在本文中,我们提出了一种新的强化学习框架 - 监控马尔可夫决策过程(Monitored MDPs),该框架解决了强化学习中奖励无法被完全观测到的问题,并讨论了该设置的理论和实践后果,提出了相应的算法。
Feb, 2024
本文介绍了非累积马尔可夫决策过程(NCMDPs)与标准马尔可夫决策过程(MDPs)之间的一种映射关系,并展示了在强化学习中的应用,包括经典控制、金融组合优化和离散优化问题。通过我们的方法,相较于依赖标准 MDPs,我们可以改善最终性能和训练时间。
May, 2024
本文中,我们将奖励建模应用于处理非马尔可夫奖励的强化学习问题,我们在此基础上移除了现有工作假设的独立反馈观察前提,并扩展了奖励建模以捕捉人类对轨迹的时间依赖关系。我们将其作为多实例学习(MIL)问题,通过将轨迹视为带有返回标签的包,将轨迹中的步骤视为具有未见过奖励标签的实例。我们还开发了新的多实例学习模型,能够捕捉标记轨迹中的时间依赖关系,并在一系列强化学习任务中展示了我们的新模型能够将奖励函数重建到高精度,并能用于训练高性能代理策略。
May, 2022
文章提出了一种名为 No-Reward Meta Learning (NoRML) 的自适应学习方法,它使用观测到的环境动态而不是显式奖励函数进行模型参数更新,以适应目标任务时变的环境动态。研究表明,NoRML 在环境动态变化时的性能优于传统方法 Model Agnostic Meta Learning (MAML)。
Mar, 2019
本文运用离散事件系统监控控制理论的概念,提出一种方法用于在有限状态的马尔可夫决策过程中,学习最优控制策略,并利用奖励机器的发展来处理状态限制。通过给定一个例子来阐明其应用性并在此设置中展示了仿真结果。
Jan, 2022