非参数叠加值函数：可解释性强的强化学习及其在外科恢复中的应用

Aug, 2023

非参数叠加值函数：可解释性强的强化学习及其在外科恢复中的应用

Nonparametric Additive Value Functions: Interpretable Reinforcement Learning with an Application to Surgical Recovery

Patrick Emedom-Nnamdi, Timothy R. Smith, Jukka-Pekka Onnela, Junwei Lu

TL;DR我们提出了一种非参数的加性模型，用于估计强化学习中可解释的价值函数。该方法通过使用局部核回归和基扩展来获取动作价值函数的稀疏、加性表示，从而实现局部逼近和提取特征的非线性、独立贡献以及特征对的共同贡献。我们通过模拟研究验证了该方法，并在脊椎疾病的应用中揭示了与相关临床知识一致的康复建议。

Abstract

We propose a nonparametric additive model for estimating interpretable value functions in reinforcement learning. Learning effective adaptive clinical interventions that rely on →

nonparametric additive model interpretable value functions reinforcement learning adaptive clinical interventions digital phenotyping features

发现论文，激发创造

加性函数回归的最优预测

本文提出了一种基于 Reproducing Kernel Hilbert Spaces 的估计方法，建立了在预测误差方面我们估计的最优收敛率的非线性函数回归模型，并讨论了在这些复杂模型中出现的计算挑战。同时提供了仿真及应用：在 2008 年金融危机期间的累积日内回报。

Aug, 2017

强化学习中的张量和矩阵低秩值函数逼近

论文提出了一种基于随机低秩算法和张量拟合方法的、无模型且在线的环境中的 VF 矩阵估计算法，有效地解决了高维状态空间下基于线性或神经网络的 VF 估计方法的维度灾难问题，得到了满意的性能评估效果。

Jan, 2022

基于奖励相关性过滤的线性离线强化学习

这篇论文研究了离线强化学习中带有判决论但非估计稀疏性的线性函数逼近。

Jan, 2024

强化学习最优表示的几何视角

通过基于值函数空间的几何特性，提出了一种新的表征学习的视角，证明了值函数作为辅助任务的实用性并将敌对价值函数作为其自然候选。在四间房间领域的实验中，展示了敌对价值函数作为辅助任务的有用性和特点。

Jan, 2019

安全强化学习作为 Wasserstein 变分推理：可解释性的形式方法

本研究提出了一种新颖的自适应 Wasserstein 变分优化（AWaVO）方法，利用正式方法提供奖励设计、训练收敛的透明度和顺序决策的概率解释，解决了序列决策问题中奖励函数的解释和相应最优策略的挑战。

Jul, 2023

基于模型的价值估计，用于高效的无模型强化学习

本文提出了一种基于模型的价值拓展方法，通过限制想象的深度，控制模型的不确定性，提高了模型自由强化学习算法中学习价值估计的样本复杂度，针对连续控制任务使用了学习到的动态模型。

Feb, 2018

强化学习的非参数贝尔曼映射：稳健自适应滤波应用

本文设计了一种在再生核希尔伯特空间（RKHSs）中的新型非参数 Bellman 映射，用于强化学习。该方法利用 RKHS 的丰富逼近性质，不依赖数据的统计属性，不需要马尔可夫决策过程的转移概率知识，并可以在没有训练数据的情况下进行操作。该方法还提供了一种变分框架来设计所提出的 Bellman 映射的自由参数，并证明了这些参数的适当选择可以产生几种常见的 Bellman 映射设计。作为应用，这些映射方法被用于解决自适应滤波中的异常值问题。通过在线策略迭代算法，在没有有关异常值的统计信息和训练数据的情况下，选择每个时间实例中 “最优” 系数 p，以实现最小均方 p - 误差法。在合成数据的数值测试中，该方法在大多数情况下表现出比几种强化学习和非强化学习方案更优越的性能。

Mar, 2024

奖励学习作为双非参数赌博机：最佳设计和标度律

该文提出了一个理论框架来探究奖励学习和相关最优实验设计问题，利用非参数函数来模拟奖励模型和策略，借助岭回归算法开展无渐进过度风险边界分析，以此解决最优实验设计问题。文中应用这个理论框架探究高斯过程赌博优化问题，与泊松核已有研究进行了比较。

Feb, 2023

拉普拉斯 - 近似神经加性模型：结合贝叶斯推理提高可解释性

本文从贝叶斯角度探讨神经相加模型，并开发了实用的拉普拉斯近似方法。研究结果表明，使用该方法得到的神经相加模型可以提高表格回归和分类数据集以及现实世界医学任务的性能和解释性。

May, 2023

强化学习的编排价值映射

本文提出了一种以将价值估计映射到不同空间和将奖励信号线性分解为多个通道的方式作为基础的强化学习算法，具有收敛性和泛化性，并可以用于处理高度变化的奖励尺度和集成学习等任务。

Mar, 2022