强化学习中的张量和矩阵低秩值函数逼近

Jan, 2022

强化学习中的张量和矩阵低秩值函数逼近

Tensor and Matrix Low-Rank Value-Function Approximation in Reinforcement Learning

Sergio Rozada, Antonio G. Marques

TL;DR论文提出了一种基于随机低秩算法和张量拟合方法的、无模型且在线的环境中的 VF 矩阵估计算法，有效地解决了高维状态空间下基于线性或神经网络的 VF 估计方法的维度灾难问题，得到了满意的性能评估效果。

Abstract

Value-function (VF) approximation is a central problem in Reinforcement Learning (RL). Classical non-parametric VF estimation suffers from the curse of dimensionality. As a result, parsimonious parametric models have been adopted to approximate VFs in high-dimensional spaces, with most

reinforcement learning vf approximation parametric models non-parametric approach parafac

发现论文，激发创造

有限时间价值函数的张量低秩逼近

本研究论文提出了一种非参数低秩随机算法，以近似有限时域 MDP 的价值函数。研究采用多维数组或张量表示未知的价值函数，利用从 MDP 采样得到的奖励来估计最优价值函数，并使用截断的 PARAFAC 分解设计了在线低秩算法，以恢复价值函数张量的条目。通过数值实验证明了该方法的高效性，并且低秩 PARAFAC 模型的大小以各个维度的加法方式增长。

May, 2024

策略梯度方法的矩阵低秩近似

基于低秩矩阵模型的策略优化方法降低了神经网络模型的计算和样本复杂度，同时实现了类似的累积奖励。

May, 2024

低秩模型的值函数逼近

本研究提出了一种基于稀疏矩阵模型和鲁棒主成分分析方法的价值函数近似技术，可精确表示马尔可夫决策过程中的状态 - 动作值函数，实验结果表明该方法比其他方法更接近真实函数。

Aug, 2015

强化学习最优表示的几何视角

通过基于值函数空间的几何特性，提出了一种新的表征学习的视角，证明了值函数作为辅助任务的实用性并将敌对价值函数作为其自然候选。在四间房间领域的实验中，展示了敌对价值函数作为辅助任务的有用性和特点。

Jan, 2019

广义值函数逼近的强化学习：通过受限逃避维数可证明高效方法

本文提出一种基于一般价值函数逼近的强化学习算法，目的是建立一种没有对环境模型的显式假设的 RL 算法。如果价值函数能使用函数集合 F 近似，该算法将实现后悔界，为实际中使用的算法提供一个框架来证明其有效性。

May, 2020

低秩马尔可夫决策过程中的高效无模型探索

VoX 算法是首个可证明的高效的基于样本的搜索低阶马尔可夫决策过程算法，具备泛化功能近似且无需其他结构假设。该算法通过交替表示学习和策略优化，利用通用最优设计概念实现有效的最优设计计算。我们的分析简单而模块化，包括基于 Frank-Wolfe 方法的新型最优设计计算到策略优化的约简，以及对先前工作中某种特征嵌入的优化过的模块化分析。

Jul, 2023

通过近似正交约束的鲁棒低秩训练

介绍了一种在保证模型精度的情况下，同时降低深度学习中推理和训练成本，并通过基于神经网络条件数的模型稳健性表明低秩矩阵分解（low-rank matrix factorizations）容易导致模型鲁棒性的问题，提出了一种基于鲁棒低秩矩阵训练的算法，通过施加近似正交约束，保证了低秩表示与近似完整的模型之间精度。通过实验证明降低深度学习模型中推理和训练成本的同时，提高了模型的鲁棒性。

Jun, 2023

具低秩结构的离线强化学习矩阵估计

本文提出了一种离线策略评估算法，该算法利用了隐含的低秩结构来估计未被覆盖的状态 - 动作对的值，同时提供了一个离线策略优化算法，且具有非渐近性能保证。

May, 2023

利用悲观主义充分利用方差信息的线性表示下近似最优离线强化学习

利用线性模型表示形式研究离线强化学习的统计学限制，提出方差感知悲观值迭代算法，重新权重贝尔曼残差以提高离线学习界限。

Mar, 2022

面向能适应非结构化数据的无模型强化学习算法的发展

强化学习算法在尺度递增和非结构化观测方面表现良好的方法，能够有效利用外部知识构建预测结构，并提供环境和算法供研究无结构观测向量和平面动作空间的缩放问题。

Nov, 2023