基于表示的强化学习

ICMLMay, 2023

Representation-Driven Reinforcement Learning

Ofir Nabati, Guy Tennenholtz, Shie Mannor

TL;DR提出了一个基于表示的强化学习框架，使用来自上下文强化学习的技术来指导探索和利用。通过在线性特征空间中嵌入策略网络，将勘探利用问题转化为表示利用问题，这样好的策略表示能够实现最佳勘探。通过应用于进化和策略梯度方法，本框架比传统方法具有显著提高的性能。该框架提供了关于强化学习的新视角，突出了策略表示在确定最佳勘探利用策略方面的重要性。

Abstract

We present a representation-driven framework for reinforcement learning. By representing policies as estimates of their expected values, we leverage techniques from contextual bandits to guide exploration and exp

reinforcement learning policy representation exploration-exploitation contextual bandits policy network

发现论文，激发创造

利用目标条件策略学习可操作表示

本文研究功能性显著表征的强化学习方法，可以用于改善稀疏奖励问题的探索、实现具有长期视野的分层强化学习和作为下游任务的学习策略的状态表征。通过在多个虚拟环境中对比实验，表明该方法在表征学习、探索和分层强化学习方面具有优势。

Nov, 2018

强化学习的动作表示学习

研究了在没有给定先验结构的情况下，如何基于状态表示和行为表示实现模型无关的强化学习方法，并提供了相应的算法和收敛条件。

Feb, 2019

多智能体系统中的策略表示学习

我们提出了一个用于多智能体系统中建模代理行为的泛化学习框架，将代理建模作为表示学习问题，并使用模仿学习和代理识别的算法进行无监督学习，以构建代理策略的表示形式。在具有挑战性的高维连续控制和通信合作环境中，我们经验证明该框架对于使用深度强化学习进行无监督聚类和策略优化的监督预测任务具有实用价值。

Jun, 2018

调查策略梯度算法中行动表示的影响

强化学习是一种用于解决复杂实际问题的多功能学习框架，本研究讨论了不同的分析技术，并评估它们对于研究强化学习中行为表示对学习性能的影响的有效性。实验证明行为表示对流行强化学习基准任务的学习性能有显著影响，分析结果指出性能差异的一部分可以归因于优化整体的复杂度变化。最后，我们讨论了强化学习算法分析技术的挑战。

Sep, 2023

针对连续动作空间的表示学习有助于有效的策略学习

本文提出了一种在潜在状态和动作空间中进行高效策略学习的方法，扩展了状态表示以达到更好的策略泛化能力，同时通过将整个学习任务划分为无监督学习和强化学习来减小了训练规模。最后，在 MountainCar、CarRacing 和 Cheetah 实验中证明了该方法的有效性。

Nov, 2022

基于丰富观测的 PAC 强化学习

本研究提出一种新的强化学习模型，将上下文逐步演化到顺序决策制定，通过分析最小二乘值淘汰算法表明，在某些特定情形，强化学习方法的范数较优行为可以在多项式时间内学习。

Feb, 2016

强化学习中的局部约束表达

本文提出一种局部约束表示法，通过对环境观测状态的预测及邻近状态的表示作为辅助损失，将强化学习中的表示与任务相分离，可以提高泛化能力，有效应用于连续控制任务中。

Sep, 2022

学习带有专业指导的安全策略

提出一种用于确保强化学习智能体在奖励函数难以指定的情况下保持安全行为的框架，该框架依赖于来自专家策略的演示，并提供了一个理论框架，以优化智能体在现有知识一致的奖励空间中。我们提出了两种方法来解决产生的优化问题：一种是基于精确椭球方法，另一种是基于 “跟随扰动领导者” 算法的方法。我们的实验证明了我们算法在离散和连续问题中的行为，训练出来的智能体在模仿专家行为的同时安全地避免了具有潜在负面影响的状态。

May, 2018

使用典型表示的强化学习

Proto-RL 是一种基于自我监督的框架，将表示学习与探索相结合，通过原型表示来实现，从而解决了强化学习中表示学习与探索之间的挑战，并在不带下游任务信息的环境中预训练这些任务无关的表示和原型，实现了一组困难的连续控制任务的最新下游策略学习。

Feb, 2021

以表示复杂性为视角重新思考基于模型、基于策略和基于价值的强化学习

强化学习（RL）涵盖了不同的范式，包括基于模型的 RL、基于策略的 RL 和基于值的 RL，本文研究了这些 RL 范式之间表示复杂性的潜在层次结构，从表示模型、最优策略到最优值函数等不同层次之间存在着显著的表示复杂性差距。

Dec, 2023