Dec, 2023

张量再生核希尔伯特空间中的安全强化学习

TL;DR本文探讨了在部分可观察环境下的安全强化学习问题,旨在实现安全可达性目标。通过提出一种基于随机模型的方法,在面对未知系统动态和部分观测环境时,几乎确定地保证了强化学习的安全性。利用预测状态表示和再生核希尔伯特空间,对未来的多步观测进行了解析表示,并通过核贝叶斯规则导出了关键操作,可以使用不同的操作递归估计未来的观测。在假设观测和动作空间无限大的情况下,为强化学习算法建立了多项式样本复杂度,确保了 ε- 次优安全策略保证。