平滑贝尔曼误差嵌入的尖锐分析

ICMLJul, 2020

Sharp Analysis of Smoothed Bellman Error Embedding

Ahmed Touati, Pascal Vincent

TL;DR研究了使用 Smoothed Bellman Error Embedding 算法在 batch-mode 强化学习中的理论行为，并基于近期研究的工作，证明了该算法在使用的函数类表示能力和紧密的分布转移概念下，可以实现近乎最优的性能保证。

Abstract

The \textit{smoothed bellman error embedding} algorithm~\citep{dai2018sbeed}, known as SBEED, was proposed as a provably convergent reinforcement learning algorithm with general nonlinear →

smoothed bellman error embedding reinforcement learning neural networks function approximation batch-mode

发现论文，激发创造

SBEED：非线性函数逼近的收敛强化学习

本文使用 Nesterov 的平滑技术和 Legendre-Fenchel 变换将贝尔曼方程式重新构成一个新的原始对偶优化问题，并开发了一个名为平滑贝尔曼误差嵌入的新算法来解决这个优化问题，其中可以使用任何可微分类函数。我们提供了通用非线性函数逼近的第一个收敛保证，并分析了算法的样本复杂度。经验上，我们的算法在几个基准控制问题中与最先进的基准线相比表现得非常好。

Dec, 2017

强化学习中基于离线策略的状态值估计的广义投影贝尔曼误差

本文介绍了一种基于非线性机器学习的强化学习算法，该算法使用一种新的广义均方投影贝尔曼误差作为目标函数，可提高算法的稳定性和性能。

Apr, 2021

基于梯度的价值估计的高效实现

本文研究了值估计的梯度方法在强化学习中速度较慢的原因，提出了一种基于 Gauss-Newton 方向的低复杂度非批量化近端方法，并介绍了主要算法 RANS 及其在经典问题中的表现。

Jan, 2023

一般函数近似下的非平稳强化学习

本论文针对非平稳 MDP 问题，提出了一种复杂度指标 Dynamic Bellman Eluder 维度和一种新的置信区间算法 SW-OPEA，通过对非平稳线性和表格 MDPs 的示例进行演示，表明该算法在小变化预算场景下性能优于现有的 UCB 类型算法，同时证明了当变化预算不显著大时，SW-OPEA 算法是可以有效地执行。

Jun, 2023

学习具有低基本 Bellman 误差的近最优策略

研究在近似线性行动价值函数的情况下，基于低内在 Bellman 误差的探索问题，给出了一种算法，其高概率的遗憾上界与特征维数和 Bellman 误差有关，同时将其与先前的工作进行了比较，在线性 MDP 的情况下，证明了这个算法具有统计效率。

Feb, 2020

有限维谱动力学嵌入实现随机非线性控制

使用具备无穷维特征的 Spectral Dynamics Embedding 结合实际的有限维截断近似来控制非线性随机系统的 Spectral Dynamics Embedding Control（SDEC）算法，探索了其截断近似和有限采样的近似所引起的误差，对摆锤问题进行了实证测试。

Apr, 2023

基于均值嵌入的分布式贝尔曼算子

我们提出了一个新颖的算法框架来进行分布式强化学习，基于学习回报分布的有限维均值嵌入。我们基于此框架推导出了几个新的动态规划和时间差分学习算法，提供了渐近收敛理论，并对算法在一套表格任务上的实证性能进行了研究。此外，我们展示了这种方法可以与深度强化学习简单地结合，获得一个在 Arcade Learning Environment 上改进了基线分布式方法的新的深度强化学习代理。

Dec, 2023

稳定的 Barzilai-Borwein 步长的随机非凸序嵌入

通过引入一种新的稳定 Barzilai-Borwein (SBB) 方法，我们提出了一种叫做 SVRG-SBB 的随机算法，用于从相对相似性比较中学习表示，该方法不需要使用奇异值分解（SVD），具有良好的可扩展性以及自适应步长选择。同时，我们通过仿真和实验的方法，展示了该算法与最先进的方法相比，具有更低的计算成本和良好的预测性能。

Nov, 2017

延迟反馈的平滑顺序优化

研究表明，采用经验贝叶斯收缩方法对赌博学习中的奖励估计进行优化，并基于窗口累积输入估计平滑的奖励估计，以应对延迟反馈和非稳态奖励导致的不完全知识问题，并通过数量模拟验证了该提案的优越性，可以在速度和稳定性之间取得平衡，为人类 - 有回路的顺序优化提供便利。

Jun, 2021

模拟引导的神经组合优化梁搜索

通过引入模拟指导波束搜索（SGBS）和有效主动搜索（EAS）的组合，提高了神经组合优化的搜索效率。

Jul, 2022