关键词predictive state representation
搜索结果 - 4
- 张量再生核希尔伯特空间中的安全强化学习
本文探讨了在部分可观察环境下的安全强化学习问题,旨在实现安全可达性目标。通过提出一种基于随机模型的方法,在面对未知系统动态和部分观测环境时,几乎确定地保证了强化学习的安全性。利用预测状态表示和再生核希尔伯特空间,对未来的多步观测进行了解析表 - MMGEC:MDP、POMDP 及更广泛情境下交互式决策的统一框架
我们研究了基于互动决策制定的样本有效强化学习,提出了广义 Eluder 系数作为复杂度度量,并通过后验采样算法在完全可观察和部分可观察的环境下实现模型自由和模型为基础的学习,在探索和开发之间建立了基本权衡。
- 利用高阶范畴论统一因果推断和强化学习
使用高阶范畴论,提出了一种统一形式化结构发现因果模型和强化学习中预测状态表示模型的方法,并通过寻找内部和外部 Horns 的扩展,解决了潜在结构发现的数学问题。
- 利用预测状态表示关闭学习和规划循环
本文提出并演示了一种精确学习环境模型的新算法,该算法从行动 - 观测对的序列中直接学习此类环境的模型,并通过在学习的模型中进行规划并恢复一个接近原始环境的最优策略实现从观测到行动的闭环。