BriefGPT.xyz
Ask
alpha
关键词
bisimulation metrics
搜索结果 - 5
强化学习中的观测转移泛化
本文提出了一种基于 bisimulation 的模拟器学习方法,在考虑环境变化的情况下,使用备选观测来学习一个对观测变换不变的表示空间,以实现对测试阶段环境的适应,并在高维图像控制领域上进行实证分析。
PDF
a year ago
使用双仿度量进行近似策略迭代
本文提出 Sinkhorn 距离可以定义 Bisimulation metrics,通过 Bisimulation-based discretization 的 Approximate Policy Iteration 可以在 Actor-
→
PDF
2 years ago
ICLR
学习不带重建的强化学习不变表示
研究如何利用表示学习加速深度强化学习,学习能够为任务控制提供有效的潜在表示并具有与任务无关的不变性的表示方法,使用双模拟量度量在连续 MDP 状态之间的行为相似度,学习出能够仅编码来自观测的任务相关信息的健壮潜在表示,该方法通过训练编码器使
→
PDF
4 years ago
AAAI
确定性马尔科夫决策过程中计算状态相似性的可扩展方法
本文针对 MDPs 中 Bisimulation Metrics 的计算提出了新的算法,包括适用于连续状态 MDP 的可微损失函数,其中第一算法通过采样保证收敛性,第二算法通过学习实现了对大规模、确定性 MDP 的近似计算。
PDF
5 years ago
游戏指标算法
基于模拟和双模拟的指标可以用于系统验证和性能评估,适用于定量的 mu - 演算和相关概率逻辑,对于马尔可夫链,我们提供了一个 PSPACE 算法,以匹配最佳算法,并且这些算法可以通过二分搜索来逼近指标。
PDF
16 years ago
Prev
Next