Sep, 2013

预测状态表示的 Hilbert 空间嵌入

TL;DR利用有限基数假设的预测状态表示学习算法,该文章将预测状态表示(PSR)推广到无限观察和动作的集合,并使用分布的希尔伯特空间嵌入来表示状态,从而提高了预测和更新模型的效率。