BriefGPT.xyz
Ask
alpha
关键词
state spaces
搜索结果 - 3
基于情景无关表征实现多智能体迁移强化学习
通过将各种状态空间统一为固定大小的输入,以便在 MAS 中的不同场景中使用一种统一的深度学习策略,我们介绍了一种新的框架,使得多智能体强化学习能够进行迁移学习。在 StarCraft Multi-Agent Challenge(SMAC)环
→
PDF
5 months ago
政策网络的泛化分析:双积分器的案例
利用深度强化学习(DRL)策略网络在各种连续控制任务中的广泛应用引发了关于在输入状态规范大于训练环境中的状态规范的广泛状态空间中性能下降的问题。本文旨在使用一种称为状态划分的新型分析技术揭示处理扩展状态空间时导致性能恶化的潜在因素,与之前仅
→
PDF
7 months ago
利用线性函数近似的强化学习的一阶遗憾:一种鲁棒估计方法
本研究基于鲁棒 Catoni 平均值估计器,提出一种新的鲁棒自归一化浓度界,解决了已有技术在大状态空间强化学习中无法获得遗憾上界的问题,并证明了在线性 MDP 设定下,可以获得与最优策略性能某种度量成比例的遗憾上界。
PDF
3 years ago
Prev
Next