稳定离线强化学习的表示方法

ICMLJul, 2020

Representations for Stable Off-Policy Reinforcement Learning

Dibya Ghosh, Marc G. Bellemare

TL;DR本文研究强化学习中函数逼近不稳定的问题，提出了一种基于状态表示学习的解决方案，分析 transition matrix、proto-value functions、krylov subspace 等方案的适用范围与稳定性，并通过实验验证了可以使用随机梯度下降学习这种可靠的状态表示，从而提高深度网络对强化学习的表示学习技巧。

Abstract

reinforcement learning with function approximation can be unstable and even divergent, especially when combined with off-policy learning and Bellman updates. In deep →

reinforcement learning function approximation representation learning stability deep networks

发现论文，激发创造

增强学习中的引导式表示学习

本文研究了强化学习中的状态表示问题，发现时序差分学习与蒙特卡罗、残差梯度学习在大部分环境的特征学习上存在差异，本文提出的新的辅助学习规则在经典环境下具有较好表现。

Jun, 2023

没有代表，没有信任：连接 PPO 中的代表、崩溃和信任问题

通过对 Atari 和 MuJoCo 环境中的 PPO 代理的实证研究，揭示了 PPO 代理受特征秩降低和可塑性丧失的影响，这一现象加剧了强非稳态性，最终导致演员的性能崩溃，无论评论家的性能如何。我们建立了表示崩溃、性能崩溃和 PPO 中的信任域问题之间的联系，并提出了一种名为 PFO 的新型辅助损失，通过调节表示动态改善 PPO 代理的性能。

May, 2024

强化学习中的局部约束表达

本文提出一种局部约束表示法，通过对环境观测状态的预测及邻近状态的表示作为辅助损失，将强化学习中的表示与任务相分离，可以提高泛化能力，有效应用于连续控制任务中。

Sep, 2022

带线性函数逼近的正则化 Q 学习

通过在有限时间内收敛到线性函数逼近情况下的投影贝尔曼误差的单环路算法，本文提出的算法在马尔科夫噪声存在的情况下收敛于稳定点，并为该算法衍生的策略提供性能保证。

Jan, 2024

TD-learning 下表示动态的更好理解

探讨了 TD-learning 对时间序列中状态表示的影响，特别是在环境可逆的情况下，TD-learning 可以严格减少价值近似误差，同时将其与转移矩阵的谱分解相联系，并用随机生成的奖励拟合多个值函数来辅助表征学习。

May, 2023

强化学习中表示的泛化

本研究探讨了强化学习中状态表示的泛化行为及具体的有效维度边界，并通过文献调研及案例分析验证了所提出的有效维度理论。

Mar, 2022

在连续状态 - 动作空间中驯服 “数据饥饿” 的强化学习稳定性

我们介绍了一种分析连续状态 - 动作空间强化学习的新框架，并将其用于在离线和在线设置中证明收敛速度快。我们的分析突显了两个关键的稳定性属性，涉及价值函数和 / 或策略变化如何影响贝尔曼算子和占据测度。我们认为这些属性在许多连续状态 - 动作马尔科夫决策过程中得到满足，并展示了这些属性在使用线性函数逼近方法时如何自然产生。我们的分析为离线和在线强化学习中悲观主义和乐观主义的作用提供了新的视角，并突出了离线强化学习与迁移学习之间的联系。

Jan, 2024

低秩马尔可夫决策过程中可证明的高效表示学习

本文提出了一种名为 ReLEX 的算法，旨在通过学习表示和执行探索操作，提高代表低秩 MDPs 类的效率，该算法在方法上始终不劣于最先进的无表示学习算法，并且在表示能够对整个状态 - 动作空间具有一定的 “覆盖性” 时会严格提高样本效率。

Jun, 2021

适当的拉普拉斯表达式学习

我们介绍了一种用于近似拉普拉斯表示的理论上可靠的目标及相应的优化算法，通过消除先前逼近的超参数依赖性，我们能够自然地恢复真实特征向量和特征值。我们提供了我们方法的理论保证，并展示这些结果在多个环境中的鲁棒学习表现。

Oct, 2023

利用目标条件策略学习可操作表示

本文研究功能性显著表征的强化学习方法，可以用于改善稀疏奖励问题的探索、实现具有长期视野的分层强化学习和作为下游任务的学习策略的状态表征。通过在多个虚拟环境中对比实验，表明该方法在表征学习、探索和分层强化学习方面具有优势。

Nov, 2018