BriefGPT.xyz
大模型
Ask
alpha
关键词
state-transition graph
搜索结果 - 2
POMDPs 和可解释的代理的端到端策略梯度方法
一个 RL 算法,可以通过端到端训练来估算隐藏状态,并将估算可视化为状态转换图。 实验结果表明,该算法可以解决简单的 POMDP 问题,并使代理行为可解释给人类。
PDF
a year ago
ICML
利用广义图绘制实现更好的拉普拉斯表示在强化学习中
该研究探讨了利用 Laplacian 矩阵对状态进行编码的问题,本文提出了一种新的学习方法, 可以为大规模状态空间的强化学习任务提供高质量的 Laplacian 表示,从而产生更好的奖励塑形和探索性选择。
PDF
3 years ago
Prev
Next