关键词robust reinforcement learning
搜索结果 - 17
- RRLS:强化学习套件
我们引入了 RRLS(Robust Reinforcement Learning Suite),这是一款基于 Mujoco 环境的基准套件,为训练和评估提供了六个连续控制任务,旨在标准化强化学习任务,促进可重现和可比较的实验,并为最新的最先 - 时钟受限的鲁棒马尔科夫决策过程
通过引入新的时间约束鲁棒马尔科夫决策过程(TC-RMDP)表达方式,考虑到多因素、相关性和时变干扰,该研究重新审视了鲁棒强化学习中的传统假设,为发展更实际、更真实的强化学习应用开辟了新的路径,同时在时间受限环境下,在保持鲁棒性的同时,取得了 - 零和位置差分博弈作为鲁棒强化学习的框架:深度 Q 学习方法
该研究论文提出了鲁棒强化学习(RRL)通过考虑位置微分博弈理论中的 RRL 问题,给出了理论上的合理性,并发展了一种集中式 Q 学习方法。利用该方法,我们证明了在 Isaacs 的条件下(适用于现实世界的动态系统),同一个 Q 函数可以被用 - 博弈论的鲁棒强化学习处理时耦合扰动
提出了一个新的挑战,即通过 GRAD 方法将强化学习中的时间上耦合的扰动问题视为部分可观察的两人零和游戏,并通过在该游戏中找到逼近均衡来确保智能体对于时间上耦合的扰动的鲁棒性,实验结果表明,相比于基准方法,在状态空间和动作空间中,所提出的方 - 基于函数逼近的稳健强化学习的自然动态演员 - 评论家
我们提出了两种新的不确定性集合形式,一种基于双重采样,另一种基于积分概率度量,以应对训练模拟器和测试环境之间的模型不匹配问题,并通过引入函数近似的鲁棒自然行为者 - 评论者 (RNAC) 方法,为所提出的 RNAC 算法在有限时间内收敛到最 - 具有概率策略执行不确定性的高效动作稳健强化学习
本文探讨了具有概率性策略执行不确定性的抗干扰强化学习问题,并提出了 ARRLC 算法,该算法具有极小化最坏情况下收益损失和样本复杂性的性质,并在实验中验证了其在存在干扰情况下的稳健性。
- 通过对抗内核逼近实现稳健强化学习
通过对 RMDPs 中的敌对核进行特征化,我们提出了一种新颖的在线鲁棒 RL 方法,该方法近似敌对核并使用标准的(非鲁棒)RL 算法来学习鲁棒策略。特别是,该方法可应用于任何基础 RL 算法之上,可以轻松扩展到高维领域。在经典控制任务,Mi - 实用鲁棒强化学习:邻域不确定性集和双代理算法
介绍了一种新的不确定性集合并基于此提出了一种名为 ARQ-Learning 的鲁棒强化学习方法,同时还提出一种能高效解决 ARQ-Learning 在大规模或连续状态空间下的问题的技术,最终将其应用于各种存在模型不确定性的强化学习应用中。
- 使用离线数据的强化学习算法
该论文提出一种名为 RFQI 的稳健强化学习算法,使用离线数据集来优化策略,在标准条件下该算法能够学习到近乎最优的稳健策略,并且在标准基准测试问题上展现出卓越的性能表现。
- 可行的针对不完全规定环境的对抗鲁棒强化学习
本文提出了可行的对抗性强化学习 (FARR) 方法来自动确定环境参数的范围,通过将该问题作为二人零和博弈,最优化 FARR 目标可以在可行支持上产生对抗性分布和策略鲁棒,在参数化的网格世界和三个 MuJoCo 控制环境中证明,使用 FARR - ICML强化学习的鲁棒性策略梯度方法
开发了具有全局最优性保证和复杂度分析的政策梯度方法,用于处理模型不匹配下的鲁棒强化学习,提出了鲁棒策略梯度和平滑的鲁棒策略梯度方法,并将方法推广到广泛的非模型设置下,提供了仿真结果证明了方法的鲁棒性。
- 通过适应性规则对抗训练实现史塔克伯格博弈的坚韧强化学习
本文介绍了一种用于强化学习的 Stackelberg 游戏模型 ——RRL-Stack,旨在提供额外的鲁棒性训练和解决目前 RL 训练中存在的过度保守智能及训练不稳定等问题,并提出了一种基于 Stackelberg Policy Gradi - 带模型不确定性的在线强化学习
本文提出了一种基于样本的方法来估计未知的不确定性集并设计了一种鲁棒 Q 学习算法和鲁棒 TDC 算法,可以在线上和增量的情况下实现,在不需要收敛性保证的情况下证明了 Q 学习算法收敛到最优的鲁棒 Q 函数,并证明了 TDC 算法渐近收敛到一 - 强数据损坏下的鲁棒策略梯度
本文研究在奖励和转移方面存在敌对性干扰的鲁棒强化学习问题,并提出了天然策略梯度方法和筛选策略梯度算法可解决该问题,并在 MuJoCo 连续控制基准测试中取得了比较强的鲁棒性。
- 带有 Wasserstein 约束的强化学习
本文提出了一种使用 Wasserstein 距离测量参考转换核扰动的 Robust Reinforcement Learning 算法 -WRAAC,该算法解决了当前学习算法中对于系统动态的鲁棒性不够精确的问题,并且在 Cart-Pole - 软 - 鲁棒的演员 - 评论家策略梯度算法
本文提出了一种基于 Soft-Robust Actor-Critic 算法的 Robust Reinforcement Learning 方法,能够学习针对不确定性模型的最优策略且避免过于保守,实验证明其收敛性和高效性。
- 学习鲁棒的选项
本研究介绍了一种名为 ROPI 的算法,用于在存在模型不确定性的情况下学习具有鲁棒性的选项。此外,我们还使用 RO-DQN 解决多个任务并缓解了由于模型不确定性而导致的模型错误,实验结果表明,具有粗糙特征表示时使用线性特征的策略迭代具有固有