以表示复杂性为视角重新思考基于模型、基于策略和基于价值的强化学习

Dec, 2023

以表示复杂性为视角重新思考基于模型、基于策略和基于价值的强化学习

Rethinking Model-based, Policy-based, and Value-based Reinforcement Learning via the Lens of Representation Complexity

PDF

Guhao Feng, Han Zhong

TL;DR强化学习（RL）涵盖了不同的范式，包括基于模型的 RL、基于策略的 RL 和基于值的 RL，本文研究了这些 RL 范式之间表示复杂性的潜在层次结构，从表示模型、最优策略到最优值函数等不同层次之间存在着显著的表示复杂性差距。

Abstract

reinforcement learning (RL) encompasses diverse paradigms, including model-based rl, policy-based rl, and →

reinforcement learning representation complexity model-based rl policy-based rl value-based rl

发现论文，激发创造

关于基于模型和无模型强化学习的表示复杂性

通过实证研究，我们证明了在电路复杂度的背景下，基于模型和无模型的强化学习在表示复杂度方面的差异，揭示了模型为基础的算法通常比无模型的算法在样本复杂度上表现更好的原因，并为未来的研究提供了一个严格的框架。

Oct, 2023

简化的时间一致增强学习

本文展示了一种简单的表示学习方法：只依赖于通过潜在时间一致性训练的潜在动态模型，既可以在计划类的强化学习中使用，也可以在基于模型的强化学习中作为策略和价值函数特征使用。该方法在高维度任务上优于模型无关方法，并在样本效率上达到了模型类方法的水平。

Jun, 2023

低秩马尔可夫决策过程中可证明的高效表示学习

本文提出了一种名为 ReLEX 的算法，旨在通过学习表示和执行探索操作，提高代表低秩 MDPs 类的效率，该算法在方法上始终不劣于最先进的无表示学习算法，并且在表示能够对整个状态 - 动作空间具有一定的 “覆盖性” 时会严格提高样本效率。

Jun, 2021

基于表示的强化学习

提出了一个基于表示的强化学习框架，使用来自上下文强化学习的技术来指导探索和利用。通过在线性特征空间中嵌入策略网络，将勘探利用问题转化为表示利用问题，这样好的策略表示能够实现最佳勘探。通过应用于进化和策略梯度方法，本框架比传统方法具有显著提高的性能。该框架提供了关于强化学习的新视角，突出了策略表示在确定最佳勘探利用策略方面的重要性。

May, 2023

良好的表现是否足以保证强化学习样本的高效利用？

从统计学角度出发，本文展示了关于样本高效强化学习的充分条件其实比从传统的近似观点得出的条件更加苛刻。本文的主要研究结果为强化学习方法提供了尖锐的下限，揭示了好的（基于值、基于模型或基于策略）表示本身并不足以实现高效强化学习，除非这种近似的质量通过某些硬性门槛。此外，本研究还暗示了以下因素之间的样本复杂度呈指数倍增长：1）基于值的学习与任何质量的基于值的近似学习；2）基于值的学习与基于策略的学习；3）基于策略的学习和监督学习；4）强化学习和模仿学习。

Oct, 2019

简化基于模型的强化学习：使用单一目标学习表示、潜空间模型和策略

本研究提出了一种单一目标的方法，该方法同时优化隐空间模型和策略以实现高回报并保持自一致性，从而在提高样本效率的同时实现更好的强化学习效果。

Sep, 2022

SOLAR: 基于深度结构化表示的模型驱动强化学习

本文提出了一种适合于迭代模型增强策略，即使在具有复杂图像观测的情况下，学习简单动态和成本模型的表示方法，使得基于线性二次调节器（LQR）的基于模型的 RL 方法可用于具有图像观测的系统，并在包括通过图像直接操作真实世界机器人臂的操作中评估该方法，发现我们的方法相比其他基于模型的 RL 方法产生更好的最终性能，同时比无模型 RL 更高效。

Aug, 2018

升值路径：走向更好的强化学习表征

通过对价值改善路径的整体近似，以增强价值函数逼近能力，提出了一种新的价值导向强化学习算法。通过在 Atari 2600 游戏中测试，该算法的性能得到了显著提高。

Jun, 2020

关于价值函数的有限表达能力及其与统计 (非) 效率的联系

通过一系列的案例研究，本文深入探讨了模型识别和无模型方法之间的权衡，重点关注了在政策评估的核心问题上，价值函数空间内无法准确表示转移动态信息的情况，揭示了价值函数的表达能力限制是低效的驱动因素。

Mar, 2024

没有代表，没有信任：连接 PPO 中的代表、崩溃和信任问题

通过对 Atari 和 MuJoCo 环境中的 PPO 代理的实证研究，揭示了 PPO 代理受特征秩降低和可塑性丧失的影响，这一现象加剧了强非稳态性，最终导致演员的性能崩溃，无论评论家的性能如何。我们建立了表示崩溃、性能崩溃和 PPO 中的信任域问题之间的联系，并提出了一种名为 PFO 的新型辅助损失，通过调节表示动态改善 PPO 代理的性能。

May, 2024