Mar, 2024

强化学习的非参数贝尔曼映射:稳健自适应滤波应用

TL;DR本文设计了一种在再生核希尔伯特空间(RKHSs)中的新型非参数 Bellman 映射,用于强化学习。该方法利用 RKHS 的丰富逼近性质,不依赖数据的统计属性,不需要马尔可夫决策过程的转移概率知识,并可以在没有训练数据的情况下进行操作。该方法还提供了一种变分框架来设计所提出的 Bellman 映射的自由参数,并证明了这些参数的适当选择可以产生几种常见的 Bellman 映射设计。作为应用,这些映射方法被用于解决自适应滤波中的异常值问题。通过在线策略迭代算法,在没有有关异常值的统计信息和训练数据的情况下,选择每个时间实例中 “最优” 系数 p,以实现最小均方 p - 误差法。在合成数据的数值测试中,该方法在大多数情况下表现出比几种强化学习和非强化学习方案更优越的性能。