非马尔可夫奖励强化学习
该研究提出了一个软件平台 NMRDPP(Non-Markovian Reward Decision Process Planner)用于开发和实验决策理论计划的相关方法,其中包括基于现有和新方法的一系列方法,比如基于时间逻辑的非马尔可夫奖励函数的紧凑规范,启发式搜索和结构化方法,并通过 NMRDPP 比较这些方法并确定影响其性能的某些问题特征。
Sep, 2011
利用知识表示和自动机结构,本文提出了一种自动发现有用状态抽象的端对端算法,用于学习非Markov领域下优化策略,相较于最先进的强化学习算法,能够在更少的环境样本下得到更优的结果。
Jan, 2023
我们提出了一种新颖的强化学习方法,用于实现基于LTL$_f$(有限轨迹线性时态逻辑)的非马尔可夫奖励,通过LTL$_f$到MDPs(马尔可夫决策过程)的线性复杂度编码,利用自动机结构(与LTL$_f$规范语义等价)的优先经验回放技术来改善训练过程,在多个引入非马尔可夫任务的基准问题上进行经验证明了我们方法的可行性和有效性。
Oct, 2023
通过学习奖励机制,将非马尔可夫奖励函数映射为等效的马尔可夫函数,证明了奖励机制相对于确定性有限状态自动机对于建模单一自动机中的奖励依赖性的重要性,并通过在Officeworld领域学习黑盒非马尔可夫奖励函数以及在Breakfastworld领域学习奖励之间的依赖关系的有效性来验证了我们的方法。
Jan, 2024
本文研究了强化学习中标量马尔可夫奖励函数的表达能力,并确定了其所能表达的局限性。具体而言,我们关注三类强化学习任务;多目标强化学习、风险敏感强化学习和模态强化学习。针对每个类别,我们推导出描述该类别问题可使用标量马尔可夫奖励函数的必要和充分条件。此外,我们发现标量马尔可夫奖励函数无法表达每个类别中大多数实例。因此,我们为了更全面地了解标准奖励函数能够和不能够表达的内容做出了贡献。除此之外,我们还特别提到模态问题作为一个新的问题类别,因为目前强化学习文献中还没有对其进行系统性研究。我们还简要概述了通过专门的强化学习算法解决我们讨论的某些问题的方法。
Jan, 2024
在本文中,我们提出了一种新的强化学习框架-监控马尔可夫决策过程(Monitored MDPs),该框架解决了强化学习中奖励无法被完全观测到的问题,并讨论了该设置的理论和实践后果,提出了相应的算法。
Feb, 2024
通过开发一种无模型的强化学习方法,本研究以人类反馈为基础,通过对动作进行对抗性竞争,提出了一个可直接从人类偏好信息中识别最佳策略的 RLHF 算法,证明了在样本复杂度方面 RLHF 并不比传统强化学习更困难,并且通过规避奖励推断中的问题,如过拟合和分布偏移,可能提供改进的性能。
Jun, 2024
从专家行为中直接推断出奖励机制(RM)的贝叶斯逆强化学习(BIRL)框架,以非Markovian奖励函数为基础进行了重大改进,新的奖励空间定义,将专家示范调整为包括历史,展示了计算奖励后验的方法,并提出了一种模拟退火的新修改方案来最大化后验,通过优化其推断的奖励表现出良好性能,并与学习严格二值非Markovian奖励的现有方法进行了有利比较。
Jun, 2024
本研究针对在带有概率奖励机器的马尔可夫决策过程中强化学习的挑战,设计了一种新算法,显著改善了已知的后悔界限。我们的方法首次在理论和实验层面上展示了针对非马尔可夫奖励的高效学习能力,具有广泛的潜在应用价值。
Aug, 2024
本研究解决了平均奖励马尔可夫决策过程在强化学习中被忽视的问题。通过引入奖励扩展微分(RED)强化学习框架,提出了一种可以有效同时解决多个子任务的算法。研究显示,这些算法能够首次以完全在线的方式优化条件风险价值(CVaR)风险度量,具有重要的应用潜力。
Oct, 2024