针对连续动作空间的表示学习有助于有效的策略学习

Nov, 2022

针对连续动作空间的表示学习有助于有效的策略学习

Representation Learning for Continuous Action Spaces is Beneficial for Efficient Policy Learning

Tingting Zhao, Ying Wang, Wei Sun, Yarui Chen, Gang Niub...

TL;DR本文提出了一种在潜在状态和动作空间中进行高效策略学习的方法，扩展了状态表示以达到更好的策略泛化能力，同时通过将整个学习任务划分为无监督学习和强化学习来减小了训练规模。最后，在 MountainCar、CarRacing 和 Cheetah 实验中证明了该方法的有效性。

Abstract

deep reinforcement learning (DRL) breaks through the bottlenecks of traditional reinforcement learning (RL) with the help of the perception capability of deep learning and has been widely applied in real-world problems.While →

deep reinforcement learning model-free rl policy learning latent state action spaces

发现论文，激发创造

强化学习的动作表示学习

研究了在没有给定先验结构的情况下，如何基于状态表示和行为表示实现模型无关的强化学习方法，并提供了相应的算法和收敛条件。

Feb, 2019

大规模离散动作空间下的深度强化学习

本文提出一种基于近似最近邻方法和先前关于行动的信息的强化学习算法，将大量离散行动嵌入到连续空间中，从而实现对大规模学习问题的解决。

Dec, 2015

连续随机动力学学习环境模型

通过深度强化学习、自动化学习和马尔可夫决策过程等技术，学习出由自主智能体控制的环境模型，以解决复杂环境下的控制问题，并在多个强化学习基准环境中验证了方法的有效性。

Jun, 2023

Deep Reinforcement Learning 中的状态行为表示学习

本文介绍了一种名为 SALE 的新方法，用于学习嵌入，以从低级状态中进行有效的表示学习，并将其与一种自适应检查点方法相结合，形成 TD7 算法，用于连续控制问题，并在 OpenAI gym 基准任务上表现出了显着提高。

Jun, 2023

参数化行动空间下的深度强化学习

该论文研究了在 RoboCup 足球模拟领域中使用深度强化学习中的深度神经网络来处理参数化连续动作空间，成功地拓展了深度强化学习到参数化行动空间 MDPs 的类别，并比 2012 RoboCup 冠军代理更可靠地得分。

Nov, 2015

泛状态和行为空间上的政策优化

本文将最近开发的策略镜像下降方法进行了实质性的推广以处理一般状态和行动空间下的强化学习（RL）问题，引入了新的方法将函数逼近与此方法相结合，从而完全不需要使用显式策略参数化。此外，还提出了一种新的政策对偶平均方法，其中可能可以应用更简单的函数逼近技术。在精确策略评估下，我们将这些方法应用于解决不同类别的 RL 问题，为这些方法的全局最优性或局部最优性建立线性收敛速度，探讨了逼近误差对这些方法在具有有限动作空间或连续动作空间的一般状态 RL 问题上的收敛的影响。据我们所知，这些算法框架的开发以及它们的收敛分析似乎是文献中新的。

Nov, 2022

复杂和连续状态行动空间的专用深度残差策略安全强化学习控制器

传统控制器有局限性，深度强化学习通过在环境中进行探索来学习最优控制策略，为安全关键环境提出专门的深度残差策略安全强化学习方法，并在 Tennessee Eastman 过程控制中进行验证。

Oct, 2023

为数据高效强化学习学习具有时间一致性的表示

本研究提出了一种名为 KSL 的新的表示学习方法，通过自我监督辅助任务，强制执行表示的时间一致性，其中代理程序学习以动作为条件的状态空间表示的经常性预测。KSL 学习到的状态编码器生成低维表示，可以使 RL 任务的优化更具样本效率，并在 PlaNet 基准测试套件中产生最先进的数据效率和渐近性能结果。

Oct, 2021

简化的时间一致增强学习

本文展示了一种简单的表示学习方法：只依赖于通过潜在时间一致性训练的潜在动态模型，既可以在计划类的强化学习中使用，也可以在基于模型的强化学习中作为策略和价值函数特征使用。该方法在高维度任务上优于模型无关方法，并在样本效率上达到了模型类方法的水平。

Jun, 2023

深度 MDP：学习连续潜空间模型以进行表征学习

介绍了一种参数化潜变量空间模型 DeepMDP，通过学习奖励和下一个潜变量状态的预测来训练模型，以提高强化学习中连续状态的表示效果，并证明其在 Atari 2600 游戏中可以明显提高模型性能。

Jun, 2019