强化学习的非参数贝尔曼映射：稳健自适应滤波应用

Mar, 2024

强化学习的非参数贝尔曼映射：稳健自适应滤波应用

Nonparametric Bellman Mappings for Reinforcement Learning: Application to Robust Adaptive Filtering

Yuki Akiyama, Minh Vu, Konstantinos Slavakis

TL;DR本文设计了一种在再生核希尔伯特空间（RKHSs）中的新型非参数 Bellman 映射，用于强化学习。该方法利用 RKHS 的丰富逼近性质，不依赖数据的统计属性，不需要马尔可夫决策过程的转移概率知识，并可以在没有训练数据的情况下进行操作。该方法还提供了一种变分框架来设计所提出的 Bellman 映射的自由参数，并证明了这些参数的适当选择可以产生几种常见的 Bellman 映射设计。作为应用，这些映射方法被用于解决自适应滤波中的异常值问题。通过在线策略迭代算法，在没有有关异常值的统计信息和训练数据的情况下，选择每个时间实例中 “最优” 系数 p，以实现最小均方 p - 误差法。在合成数据的数值测试中，该方法在大多数情况下表现出比几种强化学习和非强化学习方案更优越的性能。

Abstract

This paper designs novel nonparametric bellman mappings in reproducing kernel Hilbert spaces (RKHSs) for reinforcement learning (RL). The proposed mappings benefit from the rich approximating properties of RKHSs,

nonparametric bellman mappings reinforcement learning reproducing kernel hilbert spaces adaptive filtering outliers

发现论文，激发创造

强化学习的近端 Bellman 映射及其鲁棒自适应滤波应用

本文介绍了一种基于复习核希尔伯特空间的近似 Bellman 映射类，该映射类对于所有折损因子的值都属于强力的希尔伯特非扩张映射家族，具备丰富的设计自由度，能够重现经典 Bellman 映射的属性，并为新型强化学习设计铺平道路。在提出的映射类基础上构建了一个近似策略迭代方案，用于解决在线选择 “最佳” 指数 p 的 p - 范数损失问题，以抵御线性自适应滤波中的异常值，而无需训练数据或关于异常值统计属性的任何知识。对合成数据的数值测试展示了该框架相较于几种非强化学习和基于核的强化学习方案的卓越性能。

Sep, 2023

非参数学习非局部算子中的核函数

本文采用数据自适应 RKHS Tikhonov 正则化方法，提出基于可识别性函数空间的非局部算子核学习的收敛估计器，成功地从实际数据中学习微观尺度上应用于非均质固体的应力波传播的均质化模型，并在健壮性，泛化性和准确性方面优于基线方法。

May, 2022

使用 RKHS 嵌入建模 MDP 的转换动态

研究了一种使用嵌入表示条件分布的非参数方法，该方法无需估计转移概率或密度，可用于标准控制问题和只有传感器输入的导航问题中，利用值迭代算法和方策迭代算法获得更好的最优策略和价值函数性能。

Jun, 2012

张量再生核希尔伯特空间中的安全强化学习

本文探讨了在部分可观察环境下的安全强化学习问题，旨在实现安全可达性目标。通过提出一种基于随机模型的方法，在面对未知系统动态和部分观测环境时，几乎确定地保证了强化学习的安全性。利用预测状态表示和再生核希尔伯特空间，对未来的多步观测进行了解析表示，并通过核贝叶斯规则导出了关键操作，可以使用不同的操作递归估计未来的观测。在假设观测和动作空间无限大的情况下，为强化学习算法建立了多项式样本复杂度，确保了 ε- 次优安全策略保证。

Dec, 2023

奖励学习作为双非参数赌博机：最佳设计和标度律

该文提出了一个理论框架来探究奖励学习和相关最优实验设计问题，利用非参数函数来模拟奖励模型和策略，借助岭回归算法开展无渐进过度风险边界分析，以此解决最优实验设计问题。文中应用这个理论框架探究高斯过程赌博优化问题，与泊松核已有研究进行了比较。

Feb, 2023

核信念传播

该研究提出了一种非参数信念传播的推广方法，它可以在任何需要核函数定义的领域中进行使用，并且由于采用了一种新颖的学习策略，计算效率得到了很大改善。

May, 2011

RKHS 中最优滤波的另一种观点

利用根据时间结构定义的相干信息、扩展的协方差函数以及时间基函数，为在 Reproducing Kernel Hilbert Space 中创建更高效的函数表示提供了一个有希望的研究方向。

Dec, 2023

非参数通用强化学习

本文提出了在非 Markovian、非 ergodic 且只部分可观察的环境下进行强化学习的问题。作者建立了贝叶斯强化学习代理的负面结果，并证明 Thompson 采样在随机环境中是渐进最优的。此外，作者构建了一个大但可计算的类，展示了基于 Thompson 采样的代理在这个类中收敛于任意未知可计算多智能体环境中的纳什均衡。

Nov, 2016

核化马尔科夫决策过程中的在线学习

研究了采用非参数高斯过程先验的 UCRL 和后验抽样算法的在线学习方法在未知的连续状态和动作的马尔可夫决策过程中最小化后悔的问题，在频率设置下，通过对核函数诱导的函数的再生核希尔伯特空间的真实 MDP 的转移和奖励函数的成员进行变异，研究了这些算法的后悔边界问题，并突出了转移和奖励函数对学习性能的影响。

May, 2018

Koopman 辅助强化学习

基于 Koopman 算子和马尔可夫决策过程（MDPs）的连接，发展了两种新的强化学习算法，以解决高维状态和非线性问题，构建了 “Koopman tensor” 来估计最优价值函数，通过 Koopman 张量对 Bellman 框架进行了转换，形成软值迭代和软演员 - 评论家（SAC）算法。

Mar, 2024