使用线性回归探索紧凑的强化学习表示

May, 2012

使用线性回归探索紧凑的强化学习表示

Exploring compact reinforcement-learning representations with linear regression

Thomas J. Walsh, Istvan Szita, Carlos Diuk, Michael L. Littman

TL;DR本文介绍了一种新的在线线性回归算法，其效率保证满足 KWIK 框架的要求，并将该算法应用于强化学习模型中，通过学习紧凑的表示方法进行模型训练和预测。

Abstract

This paper presents a new algorithm for online linear regression whose efficiency guarantees satisfy the requirements of the KWIK (Knows What It Knows) framework. The algorithm improves on the complexity bounds of the current state-of-the-art procedure in this setting. We explore sever

online linear regression kwik framework reinforcement learning mdp stochastic strips

发现论文，激发创造

线性马尔科夫决策过程的近最小值最大化强化学习

本文介绍了一种基于加权线性回归方案的计算有效算法，用于处理线性马尔可夫决策过程的强化学习问题。该算法实现了近似最小化最优遗憾，具有较好的效率，对参数化转换动态有良好的适应性，可以对研究领域进行更细致的探讨。

Dec, 2022

低秩马尔可夫决策过程中可证明的高效表示学习

本文提出了一种名为 ReLEX 的算法，旨在通过学习表示和执行探索操作，提高代表低秩 MDPs 类的效率，该算法在方法上始终不劣于最先进的无表示学习算法，并且在表示能够对整个状态 - 动作空间具有一定的 “覆盖性” 时会严格提高样本效率。

Jun, 2021

线性混合 MDP 的高效无界强化学习算法

该研究论文提出了第一个计算高效、无横向界限算法，其中采用了加权最小二乘法，以用于未知状态转移动态的估算，并能够应用于异构线性 bandits 中，达到了比已知算法更优的效果。

May, 2022

非定常线性马尔可夫决策过程中的高效学习

本研究提出了一种基于权重最小二乘值迭代的非稳态线性马尔可夫决策过程（MDP）最优模型 - free 算法 OPT-WLSVI，使用指数权重平滑地遗忘过去的数据，与先前的研究相比解决了遗忘策略上的技术差距，并分析了与最佳策略竞争的总遗憾是有上限的。

Oct, 2020

基于奖励相关性过滤的线性离线强化学习

这篇论文研究了离线强化学习中带有判决论但非估计稀疏性的线性函数逼近。

Jan, 2024

核化马尔科夫决策过程中的在线学习

研究了采用非参数高斯过程先验的 UCRL 和后验抽样算法的在线学习方法在未知的连续状态和动作的马尔可夫决策过程中最小化后悔的问题，在频率设置下，通过对核函数诱导的函数的再生核希尔伯特空间的真实 MDP 的转移和奖励函数的成员进行变异，研究了这些算法的后悔边界问题，并突出了转移和奖励函数对学习性能的影响。

May, 2018

使用多步逆运动学的表示学习：一种高效和优化的方法用于丰富观测的强化学习

本文提出了一种名为 MusIK 的强化学习算法，通过多步反向运动学的表示学习结合系统性探索，实现在最小统计前提下，以理想的样本复杂度达到所需精度水平的计算效率，可适用于通用函数近似。

Apr, 2023

强化学习中的计算统计差距

本文针对强化学习中的大状态空间问题，研究使用函数逼近的强化学习方法，并提出了寻找高效率算法的方案，同时探讨了计算难度与统计问题之间的关系。

Feb, 2022

基于线性贝尔曼完备性的计算高效强化学习

我们研究了计算和统计效率高的线性 Bellman 完整设置下的强化学习算法，该设置使用线性函数逼近来捕捉值函数，并统一了线性马尔可夫决策过程和线性二次调节器等现有模型。

Jun, 2024

正则化和方差加权回归在线性 MDPs 中实现极小化最优性：理论和实践

本文通过线性函数逼近研究了镜像梯度价值迭代的样本复杂性，并提出了最小最大优化的方案，即方差加权最小二乘 MDVI (VWLS-MDVI)，同时提出了 Deep Variance Weighting (DVW) 算法用于基于价值的深度强化学习。

May, 2023