BriefGPT.xyz
Ask
alpha
关键词
distributionally robust reinforcement learning
搜索结果 - 3
无模型鲁棒强化学习及样本复杂度分析
分布式鲁棒强化学习提出了一种模型自由的算法,利用多级蒙特卡洛技术来优化最坏情况性能,解决了以往模型自由的算法在收敛保证和样本复杂度方面的限制,并提供了三种不确定性情况下的有限样本分析,从而实现了分布式鲁棒强化学习的模型自由方法的复杂度最优结
→
PDF
12 days ago
基于分布鲁棒的强化学习基础探讨
鉴于训练和部署之间环境变化的需求,我们对分布稳健强化学习(DRRL)的理论基础做出贡献。通过一个以分布稳健马尔可夫决策过程(DRMDPs)为核心的综合建模框架,我们严谨地构建了适用于决策者和对手的各种建模属性。此外,我们还研究了对手引起的偏
→
PDF
8 months ago
改进的分布式鲁棒强化学习样本复杂度界限
本文提出了一种分布式抗干扰强化学习算法,即 Robust Phased Value Learning 算法,该算法针对四种不同的差距度量指标的不确定性集合进行求解,得到的结果在样本复杂度方面比现有结果具有更好的一致性。
PDF
a year ago
Prev
Next