BriefGPT.xyz
Ask
alpha
关键词
non-markovian rewards
搜索结果 - 5
一致汇总具有不同时间偏好的目标需要非马尔可夫奖励
本文以规范方法研究多目标代理问题,通过一组直观的公理论证了当各目标的时间偏好(折扣因子)可能不同时,马尔可夫聚合马尔可夫奖励函数是不可能的。因此,最优多目标代理必须接受与各个目标相关的非马尔可夫的奖励。为此,提出了一种实用的非马尔可夫聚合方
→
PDF
9 months ago
基于运动基元的(再)规划策略
本文介绍了一种名为 MP3 的深度强化学习方法,它通过将运动原语(MPs)整合到深度 RL 框架中,实现了在整个学习过程中生成平滑轨迹的能力,同时有效地从稀疏且非马尔可夫奖励中学习,还具有在执行过程中适应环境变化的能力,该方法相较于现有的深
→
PDF
a year ago
合作多智能体任务中的奖励机器学习
本文提出了一种新的多智能体强化学习方法,该方法将合作任务分解与学习奖励机器相结合,以编码子任务的结构。该方法有助于处理部分可观察环境中奖励的非马尔可夫性质,并提高了完成合作任务所需的学习策略的可解释性。每个子任务关联的奖励机器以分散的方式学
→
PDF
a year ago
AAAI
非马尔可夫奖励强化学习
研究了在具有非马尔可夫奖励的情况下,采用 Q-learning 和 R-max 算法和自动机学习算法相结合的方法用于策略学习并证明其中一些变体在极限状态下收敛到最优策略。
PDF
5 years ago
有非马尔可夫奖励的决策论规划
该研究提出了一个软件平台 NMRDPP(Non-Markovian Reward Decision Process Planner)用于开发和实验决策理论计划的相关方法,其中包括基于现有和新方法的一系列方法,比如基于时间逻辑的非马尔可夫奖励
→
PDF
13 years ago
Prev
Next