L1 正则近似线性规划中状态关联权重和采样分布对近似精度的分析

ICMLApr, 2014

L1 正则近似线性规划中状态关联权重和采样分布对近似精度的分析

An Analysis of State-Relevance Weights and Sampling Distributions on L1-Regularized Approximate Linear Programming Approximation Accuracy

PDF

Gavin Taylor, Connor Geer, David Piekut

TL;DR探讨了 $L_1$ 正则化在价值函数逼近中的应用，介绍了一种基于 $L_1$ 正则化的近似线性规划方法（RALP）：通过离线策略样本逼近最优价值函数并生成优于以往方法的策略；同时讨论了目标函数中状态关联权重和样本分布对模型逼近品质的影响，给出理论和实验结果，并提供了 RALP 擅长逼近的 MDP 类型。

Abstract

Recent interest in the use of $L_1$ regularization in the use of value function approximation includes Petrik et al.'s introduction of $L_1$-Regularized Approximate Linear Programming (RALP). RALP is unique among $L_1$-regularized approaches in that it approximates the optimal value function using →

$l_1$ regularization value function approximation off-policy samples state-relevance weights sampling distribution

发现论文，激发创造

基于正则化的特征选择在近似线性规划中用于 Markov 决策过程

本文介绍了使用 $L_1$ 正则化方法的近似线性规划，以解决过多和丰富的特征对现有算法的过拟合问题，并为正则化的近似线性规划提供新的和更强的采样上界；并提出了计算有效的同伦方法。在简单的 MDPs 和基准问题上，提出的方法表现良好。

May, 2010

错误配置条件下的最优近似因子在离策略价值函数估计中

线性离策略值函数估计中的近似因子的优化形式尚不明确，本研究通过研究加权 L2 范数、L∞范数、有无状态别名和状态空间完全性等设置，在所有这些设置上确定了渐近最优的近似因子（除了常数因子），特别是我们的界限确定了 L2（μ）范数的两个实例相关因子和 L∞范数的一个实例相关因子，从而推断出了在错误规定下离策略评估难度的因素。

Jul, 2023

基于奖励相关性过滤的线性离线强化学习

这篇论文研究了离线强化学习中带有判决论但非估计稀疏性的线性函数逼近。

Jan, 2024

带线性函数逼近的正则化 Q 学习

通过在有限时间内收敛到线性函数逼近情况下的投影贝尔曼误差的单环路算法，本文提出的算法在马尔科夫噪声存在的情况下收敛于稳定点，并为该算法衍生的策略提供性能保证。

Jan, 2024

具有线性函数逼近的分布鲁棒离线强化学习

本论文介绍了一种用于解决强化学习中有限数据和训练测试环境不匹配的问题的分布式离线 RL 方法，该方法使用历史数据学习分布式鲁棒的策略，包括线性函数逼近的情况，提出了两种算法，得出了第一个样例复杂度的非渐近性结果，并展示了其在实验上的优越性。

Sep, 2022

带有线性函数逼近的可证明有效强化学习

本文提出了第一个在基于线性动态和线性奖励时，具有多项式运行时间和样本复杂度的可证明的强化学习算法，该算法可以在不需要模拟器或其他假设的情况下实现，具有快速速度且与状态和动作数量无关。