BriefGPT.xyz
Ask
alpha
关键词
behavioral equivalence
搜索结果 - 1
AAAI
确定性马尔科夫决策过程中计算状态相似性的可扩展方法
本文针对 MDPs 中 Bisimulation Metrics 的计算提出了新的算法,包括适用于连续状态 MDP 的可微损失函数,其中第一算法通过采样保证收敛性,第二算法通过学习实现了对大规模、确定性 MDP 的近似计算。
PDF
5 years ago
Prev
Next