深度强化学习中的表征差距

May, 2022

Representation Gap in Deep Reinforcement Learning

Qiang He, Huangyuan Su, Jieyu Zhang, Xinwen Hou

TL;DR本文介绍了如何通过 POPRO 方法，解决深度强化学习中的表示重叠问题，提高策略学习的效果。

Abstract

deep reinforcement learning gives the promise that an agent learns good policy from high-dimensional information. Whereas representation learning removes irrelevant and redundant information and retains pertinent

deep reinforcement learning representation learning action value function representation gap popro

发现论文，激发创造

利用目标条件策略学习可操作表示

本文研究功能性显著表征的强化学习方法，可以用于改善稀疏奖励问题的探索、实现具有长期视野的分层强化学习和作为下游任务的学习策略的状态表征。通过在多个虚拟环境中对比实验，表明该方法在表征学习、探索和分层强化学习方面具有优势。

Nov, 2018

没有代表，没有信任：连接 PPO 中的代表、崩溃和信任问题

通过对 Atari 和 MuJoCo 环境中的 PPO 代理的实证研究，揭示了 PPO 代理受特征秩降低和可塑性丧失的影响，这一现象加剧了强非稳态性，最终导致演员的性能崩溃，无论评论家的性能如何。我们建立了表示崩溃、性能崩溃和 PPO 中的信任域问题之间的联系，并提出了一种名为 PFO 的新型辅助损失，通过调节表示动态改善 PPO 代理的性能。

May, 2024

基于表示的强化学习

提出了一个基于表示的强化学习框架，使用来自上下文强化学习的技术来指导探索和利用。通过在线性特征空间中嵌入策略网络，将勘探利用问题转化为表示利用问题，这样好的策略表示能够实现最佳勘探。通过应用于进化和策略梯度方法，本框架比传统方法具有显著提高的性能。该框架提供了关于强化学习的新视角，突出了策略表示在确定最佳勘探利用策略方面的重要性。

May, 2023

针对连续动作空间的表示学习有助于有效的策略学习

本文提出了一种在潜在状态和动作空间中进行高效策略学习的方法，扩展了状态表示以达到更好的策略泛化能力，同时通过将整个学习任务划分为无监督学习和强化学习来减小了训练规模。最后，在 MountainCar、CarRacing 和 Cheetah 实验中证明了该方法的有效性。

Nov, 2022

离线强化学习：值函数逼近的基本限制

本研究针对离线强化学习问题，研究了在实践中越来越受到关注的离线值函数逼近方法，发现其需要有限制的覆盖条件或超出监督学习的表示条件，并提出了所谓的过覆盖现象，阐述了在线和离线强化学习之间的巨大分离性，最终得出任何算法都需要多项式大小的样本复杂度来学习非平凡策略的结论。

Nov, 2021

基于价值和密度比实现的离线强化学习：间隙的威力

本研究针对离线强化学习中的样本利用效率问题，提出了基于地位结构的重要性采样（MIS）的悲观算法，并利用较弱的函数逼近前提给出保证。

Mar, 2022

调查策略梯度算法中行动表示的影响

强化学习是一种用于解决复杂实际问题的多功能学习框架，本研究讨论了不同的分析技术，并评估它们对于研究强化学习中行为表示对学习性能的影响的有效性。实验证明行为表示对流行强化学习基准任务的学习性能有显著影响，分析结果指出性能差异的一部分可以归因于优化整体的复杂度变化。最后，我们讨论了强化学习算法分析技术的挑战。

Sep, 2023

以表示复杂性为视角重新思考基于模型、基于策略和基于价值的强化学习

强化学习（RL）涵盖了不同的范式，包括基于模型的 RL、基于策略的 RL 和基于值的 RL，本文研究了这些 RL 范式之间表示复杂性的潜在层次结构，从表示模型、最优策略到最优值函数等不同层次之间存在着显著的表示复杂性差距。

Dec, 2023

强化学习最优表示的几何视角

通过基于值函数空间的几何特性，提出了一种新的表征学习的视角，证明了值函数作为辅助任务的实用性并将敌对价值函数作为其自然候选。在四间房间领域的实验中，展示了敌对价值函数作为辅助任务的有用性和特点。

Jan, 2019

多智能体强化学习中动作 - 价值网络的表征能力

本文探讨了深度强化学习技术在合作多智能体系统中的应用，实验结果表明不同网络架构的表现存在差异，提出了增强其表示能力来解决失败问题的建议。

Feb, 2019