BriefGPT.xyz
Ask
alpha
关键词
latent state discovery
搜索结果 - 1
ICLR
用多步反向动力学方法通过外界干扰证明的强化学习
该论文研究了如何在处理高维观测数据时,通过引入先前的表示学习方法从原始观测数据中提取内生潜在状态信息,并在存在外生噪声时进行最优规划。提出了 EX-BMDP 模型,开展了潜在状态发现研究,并介绍了基于预测路径消除算法(PPE)的算法,对于近
→
PDF
3 years ago
Prev
Next