BriefGPT.xyz
Ask
alpha
关键词
robust policy
搜索结果 - 3
鲁棒马尔科夫决策过程的一阶策略优化
研究如何解决具有不确定转移内核的折现,有限状态,有限行动空间 MDP 的强鲁棒性问题,旨在寻找一个抵抗传递不确定性的最佳策略。与标准 MDP 规划相比,本文提出了一个名为 RPMD 的策略型一阶方法,并对于两种递增步长的情形,建立了寻找 ε
→
PDF
2 years ago
AAAI
基于非匹配生成模型的稳健马尔可夫决策过程的策略学习
利用模拟器训练代理人以学习强健的策略是解决医疗、自动驾驶等高风险环境下数据实验不可行的问题。本篇研究以生成模型的形式将训练环境表达,并提出了一种基于博弈论的算法解决了在测试中出现的扰动与环境不确定性的问题,得到了一个近似最优的强健决策。
PDF
2 years ago
AAAI
交替优化与积分在鲁棒控制中的应用
本文提出一种名为 ALOQ 的方法,它结合了贝叶斯优化和贝叶斯积分来解决在考虑环境变量影响下找到鲁棒策略的问题,并且在实验中证明 ALOQ 比现有方法更高效和稳健。
PDF
8 years ago
Prev
Next