强化学习的谱分解表示

ICLRAug, 2022

Spectral Decomposition Representation for Reinforcement Learning

Tongzheng Ren, Tianjun Zhang, Lisa Lee, Joseph E. Gonzalez, Dale Schuurmans...

TL;DR本文提出了一种名为 SPEDER 的替代谱方法，它从动态中提取状态 - 动作抽象，同时平衡学习过程中的探索与利用，并在在线和离线设置中证明了其样本效率及在多项基准测试中的优越性能。

Abstract

representation learning often plays a critical role in reinforcement learning by managing the curse of dimensionality. A representative class of algorithms exploits a spectral decomposition of the stochastic tran

representation learning reinforcement learning spectral methods exploration speder

发现论文，激发创造

使用奇异值分解的深度强化学习表示与探索

该研究论文介绍了一个基于奇异值分解的方法，用于在领域中保留基础转换结构的表示，从而提供伪计数的估计，在多任务中展示了结果，并解决了部分可观测的环境下的难以探索的任务。

May, 2023

噪声带来的免费午餐：基于证明和实践的表征学习探索

本文提出 Spectral Dynamics Embedding (SPEDE) 算法，通过噪声结构对表示学习进行乐观探索，突破了表达能力和可处理性之间的权衡，并在多个基准测试中证明了其优越性能。

Nov, 2021

基于谱方法的 POMDP 强化学习实验结果

提出了一种基于谱分解方法的新的强化学习算法，用于部分可观察马尔可夫决策过程（POMDP）。通过谱技术从由固定策略生成的轨迹中学习 POMDP 参数，运行多个历元后，最终通过优化预测的 POMDP 模型返回最佳无记忆策略，并证明了与最优无记忆策略具有相对最优的后悔界和有效的缩放性。

May, 2017

使用谱方法强化学习 POMDPs

提出了一种新的强化学习算法用于部分可观察的马尔可夫决策过程 (POMDP)，该算法基于谱分解方法，学习参数通过固定政策生成的轨迹，并通过优化 oracle 返回最优的无记忆规划策略，算法可以有效缩放观测和行动空间的维度。

Feb, 2016

深入探讨光谱嵌入

该研究论文提出了两种新的方法，一种基于函数分析原则和核方法，另一种是基于训练优化原则变分损失的深度网络，以构建数据的谱嵌入，并提供了一个新的采样算法，以在单个步骤中利用学习的表示来生成新样本。

Jun, 2023

使用谱方法进行丰富观测 MDP 的强化学习

本文研究富观测马尔科夫决策过程（ROMDP），提出了一种谱分解方法用于在有限时间内成功地学习到每个观测状态的隐状态，由此引入了基于寻优算法的强化学习算法 UCRL，且在维度依赖性方面具有较弱的相关性的有限时间遗憾边界。

Nov, 2016

强化学习的扩散谱表示

扩展现有方法以适用于更广泛的现实世界应用的关键挑战在于推理时间的计算成本，我们提出了一种利用扩散模型在表示学习视角下的灵活性的 Diff-SR 方法，该方法能够从马尔可夫决策过程（MDP）和部分可观察马尔可夫决策过程（POMDP）中提取足够的价值函数表示，从而实现效率的策略优化和实际算法，并明确绕过从扩散模型中采样的困难和推理成本。

Jun, 2024

理解强化学习中的自预测学习

本篇研究探讨了自预测学习的学习动态，通过对优化动态的设计，提出了双向自学习算法，并通过一系列实验验证了该算法的有效性。

Dec, 2022

马尔科夫过程的频谱状态压缩

本研究利用香农熵的谱分解方法，对 Markov 过程的特征，以及如可表示性，可继承性和可压缩性等属性进行研究。研究者还开发了一种谱方法，用于估计低秩 Markov 模型的转移矩阵，以及恢复状态聚合和可堆叠分区等潜在结构。

Feb, 2018

有限维谱动力学嵌入实现随机非线性控制

使用具备无穷维特征的 Spectral Dynamics Embedding 结合实际的有限维截断近似来控制非线性随机系统的 Spectral Dynamics Embedding Control（SDEC）算法，探索了其截断近似和有限采样的近似所引起的误差，对摆锤问题进行了实证测试。

Apr, 2023