如何在 Q 学习中对连续状态 - 动作空间进行离散化：一种符号控制方法

Jun, 2024

如何在 Q 学习中对连续状态 - 动作空间进行离散化：一种符号控制方法

How to discretize continuous state-action spaces in Q-learning: A symbolic control approach

Sadek Belamfedel Alaoui, Adnane Saoud

TL;DR基于符号模型的新型 Q 学习方法通过分析连续状态 - 动作空间的挑战，并利用符号模型表示行为关系，提出了一种解决方案，该方案能够获得编码最优策略的两个 Q 表，并探讨了空间抽象参数与 Q 值损失之间的相关性，并通过两个案例研究展示了该方法的工程应用价值。

Abstract

q-learning is widely recognized as an effective approach for synthesizing controllers to achieve specific goals. However, handling challenges posed by continuous state-action spaces remains an ongoing research fo

q-learning continuous state-action spaces space discretization methods symbolic model optimal policies

发现论文，激发创造

连续控制中的状态抽象学习与迁移

使用简单的算法和良好的表示能否解决困难的强化学习问题？本文回答了这个问题，并提出了一种将连续状态空间抽象为离散的学习算法，将其转移到未知问题中以实现有效的学习，并证明学习到的抽象保持有界的值损失，实验证明该抽象使 tabular Q-Learning 在未知任务中有效学习。

Feb, 2020

机器人倒立摆平衡的连续控制问题的 Q 学习方法

该研究评估了一种离散动作空间强化学习方法（Q-learning）在机器人倒立摆平衡的连续控制问题中的应用。为了加快学习过程并克服直接在真实机器人系统上进行学习的技术困难，学习阶段在模拟环境中进行。通过对从真实系统获取的数据进行曲线拟合来推导系统动力学的数学模型。该研究验证了该方法的可行性，应用于一个真实世界的机器人学习平衡倒立摆。该研究还强调并证明了在模拟中准确表示物理世界对于实现强化学习算法在真实环境中更有效的重要性，即使使用离散动作空间算法来控制连续动作。

Dec, 2023

深度强化学习中连续动作的离散顺序预测

本文提出了一种使用神经网络模型对连续动作空间离散化建模的方法，通过预测单个维度的方法对高维空间进行建模，实现了有效解决高维连续控制问题的技术，其中利用基于 Q learning 算法的离策略 (off-policy) 方法取得了最先进的结果。

May, 2017

增长型 Q 网络：用自适应控制分辨率解决连续控制任务

近期的强化学习方法在解决连续控制基准问题时表现出了令人惊讶的强大能力，通过粗糙的动作空间离散化实现了有利的探索特性，而在没有动作惩罚的情况下，最终性能并不明显受到影响。本文旨在通过从粗控制到细控制的分辨率增长，结合解耦的 Q 学习最新成果，将我们的方法扩展到高维动作空间，最多达到 dim (A) = 38。我们的研究表明，自适应控制分辨率结合价值分解可以得到仅用于评论的简单算法，在连续控制任务上表现出令人惊讶的强大性能。

Apr, 2024

符号问题上通用强化学习的关系抽象

本文介绍了一种新的强化学习方法，利用关系抽象和深度学习，学习符号状态空间中可推广的 Q 函数，并能在零阶转移下转移到不同的相关问题，实现对大规模问题的有效知识迁移。

Apr, 2022

度量空间中的情节式强化学习自适应离散化

提出了一种基于自适应数据驱动离散化的 $Q$- 学习策略的高效算法，可以用于大型（可能是连续的）状态 - 动作空间的无模型经验强化学习。

Oct, 2019

通过 Q 学习解决连续控制问题

本文提出了一种将单智能体控制转化为多智能体协作学习的方法 —— 将动作离散化并结合价值分解，从而将 Q-learning 方法应用于高维连续动作空间的情况，能够在学习来自特征或像素的信息的情况下与最先进的连续动作优化技术相匹敌，并在多种连续控制任务中表现出强大的性能。

Oct, 2022

连续状态和行动空间中强化学习的几何学

使用几何镜头建立对连续状态和动作空间的理论理解，以证明可达状态的低维流形的维度最多为动作空间维度加一，并且通过使用 DDPG 的深度神经网络训练出的低维度表示策略学习表现良好。

Dec, 2022

通过继承表征进行离散状态 - 行动抽象化

本文提出了一种自动学习基于状态抽象的离散化模型，命名为 Discrete State-Action Abstraction (DSAA)，可以有效地解决强化学习中的任务，并且对探索方案的影响进行了模拟和验证。

Jun, 2022

来自演示的动作量化连续控制

本文提出了一种基于 RL 的新方法 AQuaDem，可从人类演示中学习连续动作空间的离散化，以实现在连续控制问题上的离散动作深度 RL 技术应用，并通过实验证明了优于 SAC 和 GAIL 的性能。

Oct, 2021