BriefGPT.xyz
大模型
Ask
alpha
关键词
dual policy iteration
搜索结果 - 3
具有双重鲁棒性的安全强化学习
提出了一个系统的框架来统一安全强化学习和鲁棒强化学习的问题,包括问题的形式化、迭代方案、收敛性分析和实际算法设计。该框架建立在有约束的两人零和马尔可夫博弈上,提出了一种双重策略迭代方案,同时优化任务策略和安全策略。证明了该迭代方案的收敛性。
→
PDF
10 months ago
基于收敛上级的同策略机器人仿真学习
本文讨论了在学习策略时,监督者可能会变化的问题,并提出了一种从收敛监督者进行模仿学习并对其进行形式化。此外,作者将此框架与一类强化学习算法(DPI)相连,并在实验中使用最新的深度模型为监督者的方法在连续控制任务中获得了比深度强化学习基线更好
→
PDF
5 years ago
双策略迭代
本文提出了 Dual Policy Iteration 的概念,利用该框架有效地将模型无关和基于模型的强化学习方法与未知动力学结合起来,用于处理各种连续控制马尔可夫决策过程。
PDF
6 years ago
Prev
Next