低秩模型的值函数逼近

Aug, 2015

Value function approximation via low-rank models

Hao Yi Ong

TL;DR本研究提出了一种基于稀疏矩阵模型和鲁棒主成分分析方法的价值函数近似技术，可精确表示马尔可夫决策过程中的状态 - 动作值函数，实验结果表明该方法比其他方法更接近真实函数。

Abstract

We propose a novel value function approximation technique for Markov decision processes. We consider the problem of compactly representing the state-action value function using a low-rank and sparse matrix model.

value function approximation markov decision processes low-rank and sparse matrix model robust principal component analysis convex optimization

发现论文，激发创造

强化学习中的张量和矩阵低秩值函数逼近

论文提出了一种基于随机低秩算法和张量拟合方法的、无模型且在线的环境中的 VF 矩阵估计算法，有效地解决了高维状态空间下基于线性或神经网络的 VF 估计方法的维度灾难问题，得到了满意的性能评估效果。

Jan, 2022

广义低秩模型

本文将 PCA 技术扩展到处理包含数字、布尔、分类、有序等多种数据类型的任意数据集，提出了一种处理异构数据集的通用低秩模型，并为其提供了一些基于并行算法的实现。

Oct, 2014

鲁棒主成分分析？

本文介绍了一种名为主成分追踪的凸型优化方法，能在有噪声或缺损情况下准确分离一个 $ m * n $ 数据矩阵的低秩和稀疏成分，该方法有望应用于视频监控和人脸识别等领域。

Dec, 2009

主成分分析的随机算法

本文提出一种有效的算法，用于对任意规模的矩阵进行低秩逼近，可以在保证精度的同时大大提高计算效率，实验结果证明了算法的可行性。

Sep, 2008

低秩逼近实现的稀疏主成分分析

本文介绍了一种计算正半定矩阵的 k - 稀疏主成分的新算法，其通过查看低维度特征子空间中的一组离散特殊向量来实现。该算法的近似保证取决于其特征值分布，这使得其能够在多项式时间内对任意精度进行近似计算，同时几乎能够匹配或优于之前算法在所有测试数据集上的表现。

Mar, 2013

通过信念压缩寻找近似的 POMDP 解决方案

该研究提出了一种用于解决大型部分观察马尔可夫决策过程（POMDPs）的算法，通过降低置信度空间的维度来进行策略逼近，其中采用了指数族主成分分析方法，并且该算法成功地应用于合成问题和移动机器人导航任务中。

Jun, 2011

有限时间价值函数的张量低秩逼近

本研究论文提出了一种非参数低秩随机算法，以近似有限时域 MDP 的价值函数。研究采用多维数组或张量表示未知的价值函数，利用从 MDP 采样得到的奖励来估计最优价值函数，并使用截断的 PARAFAC 分解设计了在线低秩算法，以恢复价值函数张量的条目。通过数值实验证明了该方法的高效性，并且低秩 PARAFAC 模型的大小以各个维度的加法方式增长。

May, 2024

策略梯度方法的矩阵低秩近似

基于低秩矩阵模型的策略优化方法降低了神经网络模型的计算和样本复杂度，同时实现了类似的累积奖励。

May, 2024

压缩主成分追踪

该研究旨在探讨在压缩感知和分解多个结构化信号的更一般问题中，使用凸优化方法恢复低秩和稀疏成分的性能分析，证明了该方法可采用均匀随机选取测量方式恢复低秩和稀疏项。

Feb, 2012

稳定主成分追踪

本文介绍了通过凸优化方法，将低秩矩阵从高维数据矩阵中恢复出来，该方法在数据被小的噪声和大的稀疏误差所干扰时，可达到一定稳定性和鲁棒性。

Jan, 2010