BriefGPT.xyz
Ask
alpha
关键词
reward-free markov decision processes
搜索结果 - 1
用非对称规范来近似最小行动距离
本研究提出了一种奖励无关的马尔可夫决策过程的状态表示方法,通过自我监督学习嵌入空间,使得嵌入状态对之间的距离对应于在它们之间转换所需的最小动作数。与之前的方法不同,我们的方法采用了非对称范数参数化,可以在具有固有不对称性的环境中准确近似最小
→
PDF
7 months ago
Prev
Next