学习潜在状态表示以加速探索

May, 2019

Learning latent state representation for speeding up exploration

Giulia Vezzani, Abhishek Gupta, Lorenzo Natale, Pieter Abbeel

TL;DR通过先前的经验来学习有效的隐藏表示，以指示探索的区域，这对高维空间中的探索尤其有益。

Abstract

exploration is an extremely challenging problem in reinforcement learning, especially in high dimensional state and action spaces and when only sparse rewards are available. Effective representations can indicate

reinforcement learning exploration representation learning entropy-based exploration high dimensional spaces

发现论文，激发创造

为数据高效强化学习学习具有时间一致性的表示

本研究提出了一种名为 KSL 的新的表示学习方法，通过自我监督辅助任务，强制执行表示的时间一致性，其中代理程序学习以动作为条件的状态空间表示的经常性预测。KSL 学习到的状态编码器生成低维表示，可以使 RL 任务的优化更具样本效率，并在 PlaNet 基准测试套件中产生最先进的数据效率和渐近性能结果。

Oct, 2021

针对连续动作空间的表示学习有助于有效的策略学习

本文提出了一种在潜在状态和动作空间中进行高效策略学习的方法，扩展了状态表示以达到更好的策略泛化能力，同时通过将整个学习任务划分为无监督学习和强化学习来减小了训练规模。最后，在 MountainCar、CarRacing 和 Cheetah 实验中证明了该方法的有效性。

Nov, 2022

强化学习的动作表示学习

研究了在没有给定先验结构的情况下，如何基于状态表示和行为表示实现模型无关的强化学习方法，并提供了相应的算法和收敛条件。

Feb, 2019

强化学习中表示的泛化

本研究探讨了强化学习中状态表示的泛化行为及具体的有效维度边界，并通过文献调研及案例分析验证了所提出的有效维度理论。

Mar, 2022

元强化学习中近似超状态空间的探索

本文提出了一种名为 HyperX 的方法，利用元学习的奖励机制，通过近似超状态空间来探索，从而解决了在稀疏奖励情况下元训练的任务探索问题。实验证明，HyperX 方法可以更好地元学习，成功地适应新任务。

Oct, 2020

强化学习的潜在变量表示

本文提出了一种基于深度潜变量模型的策略学习框架，在理论上和实践中检验了潜变量模型在优化强化学习中发挥的作用，同时提出了一种计算高效的规划算法，并在多个基准测试中证明了其优越性能。

Dec, 2022

利用隐空间动态模型的信息最大化探索

本文提出一种基于模型行动选择的强化学习方法，该方法在价值函数的潜在特征空间中学习动态模型，实现机器人和环境的动态表示和模型自我激励，从而解决传统方法当中的探索与利用权衡问题，并使用贝叶斯信息理论方法在高维状态空间中实现高效的计算。我们在多个连续控制任务中评估了该方法的性能，重点是改善探索。

Apr, 2018

利用语言抽象和预训练表示进行语义探索

本研究提出使用词汇和形象语言所构建的视觉和语言表示形式来加强强化学习的探索能力，实验证明这种方法可以改善在高维连续部分可观测空间中进行探索所遇到的问题，促进算法性能的提高。

Apr, 2022

使用 PCA 高效表示状态空间

通过将代理器的状态投影到低维流形上，以更小、更高效的表示来表示状态空间，同时在学习过程中使用这种表示，能够使智能体更快地收敛于较好的策略。本文在马里奥水平测试中测试了这种方法，并发现在只用 4 个维度学习时（而不是 9 维），可以在更快的收敛速率下提高性能。

May, 2015

稀疏奖励下连续控制任务中的本地持久探索

本文提出了一种新的基于探索者轨迹的探索策略，使用局部自避步态生成方法，结合合适的状态平均距离，来为稀疏奖励的连续状态和行动空间提供短时记忆，实现高效的环境探索。

Dec, 2020