BriefGPT.xyz
大模型
Ask
alpha
关键词
mdp homomorphisms
搜索结果 - 3
存在对称性和状态抽象的策略梯度方法
本研究旨在通过抽象来提高强化学习在高维度和复杂问题上的效率和泛化能力,并在连续控制环境中研究抽象的概念,提出了一系列基于异构度量的策略梯度算法以及具有连续对称性的环境来证明该算法的效果,结果表明该算法利用 MDP 同态性进行表示学习可以提高
→
PDF
a year ago
一种使用学习 MDP 同态的状态 - 动作抽象简易方法
提出了一种新方法,即等效效果抽象,该方法利用环境动态的部分模型推断导致相同状态的状态动作对,从而将状态动作空间的大小减少一个等于动作空间基数的因子,以提高采样效率和规划效率。在网格世界环境下,通过实验证明,等效效果抽象可以在模型自由设置和基
→
PDF
2 years ago
深度学习中基于 MDP 同态的在线抽象
本论文提出了一种新的算法来找到在具有连续状态空间的环境中的 MDP 抽象,基于 MDP 同态,该算法演示了抽象学习的能力并展示了如何重用这些抽象来引导在新任务中的探索。论文中的任务转移方法在大多数实验中优于基于深度 Q 网络的基准线。
PDF
6 years ago
Prev
Next