连续控制中的状态抽象学习与迁移

Feb, 2020

连续控制中的状态抽象学习与迁移

Learning State Abstractions for Transfer in Continuous Control

Kavosh Asadi, David Abel, Michael L. Littman

TL;DR使用简单的算法和良好的表示能否解决困难的强化学习问题？本文回答了这个问题，并提出了一种将连续状态空间抽象为离散的学习算法，将其转移到未知问题中以实现有效的学习，并证明学习到的抽象保持有界的值损失，实验证明该抽象使 tabular Q-Learning 在未知任务中有效学习。

Abstract

Can simple algorithms with a good representation solve challenging reinforcement learning problems? In this work, we answer this question in the affirmative, where we take "simple learning algorithm" to be tabular Q-Learning, the "good representations" to be a →

reinforcement learning tabular q-learning learned state abstraction continuous control tasks value loss

发现论文，激发创造

如何在 Q 学习中对连续状态 - 动作空间进行离散化：一种符号控制方法

基于符号模型的新型 Q 学习方法通过分析连续状态 - 动作空间的挑战，并利用符号模型表示行为关系，提出了一种解决方案，该方案能够获得编码最优策略的两个 Q 表，并探讨了空间抽象参数与 Q 值损失之间的相关性，并通过两个案例研究展示了该方法的工程应用价值。

Jun, 2024

样本高效强化学习的动态抽象表示学习

本文介绍了一种新的从上至下的方法，用于在执行强化学习的同时构建状态抽象，动态计算一个基于 Q 值分散的抽象，结果表明，这种方法自动学习细调问题的抽象，具有较强的样本效率，并使强化学习代理明显优于现有方法。

Oct, 2022

符号问题上通用强化学习的关系抽象

本文介绍了一种新的强化学习方法，利用关系抽象和深度学习，学习符号状态空间中可推广的 Q 函数，并能在零阶转移下转移到不同的相关问题，实现对大规模问题的有效知识迁移。

Apr, 2022

连续随机动力学学习环境模型

通过深度强化学习、自动化学习和马尔可夫决策过程等技术，学习出由自主智能体控制的环境模型，以解决复杂环境下的控制问题，并在多个强化学习基准环境中验证了方法的有效性。

Jun, 2023

深度强化学习的连续控制

本论文将 Deep Q-Learning 算法应用于连续动作域，并提出了一种基于确定性策略梯度的演员 - 评论家模型无模型算法，可在连续动作空间中进行操作，成功解决了 20 多个模拟物理任务，并能与完全访问动态并了解其导数的规划算法相竞争，并证明该算法对许多任务能够进行端到端学习。

Sep, 2015

深度强化学习的马尔可夫状态抽象学习

该研究提出了一种学习马尔科夫状态抽象表示的新方法，结合逆向模型估计和时态对比学习，可以提高强化学习中的样本效率。

Jun, 2021

通过继承表征进行离散状态 - 行动抽象化

本文提出了一种自动学习基于状态抽象的离散化模型，命名为 Discrete State-Action Abstraction (DSAA)，可以有效地解决强化学习中的任务，并且对探索方案的影响进行了模拟和验证。

Jun, 2022

MAXQ 层次强化学习中的状态抽象

本篇论文研究了具有时间抽象的层次强化学习中的具有状态抽象的学习方法，证明了 MAXQ-Q 学习算法在一定的条件下收敛，并通过实验表明了状态抽象对 MAXQ-Q 学习的成功应用十分重要。

May, 1999

深度强化学习在连续控制中的基准测试

研究人员结合深度学习和强化学习在连续控制领域缺失常用基准问题下设计并发布了一套基准问题和参考实现，经过系统评估发现一系列新的结果。

Apr, 2016

连续控制中的泛化和简洁性

用简单的线性和 RBF 参数编制的策略可以训练和解决多种连续控制任务，性能与使用更复杂的参数编制（如全连接神经网络）得到的最新结果相当。采用不同的初始状态分布进行训练可以产生更好的泛化全局策略，从而允许系统从大的在线扰动中恢复。

Mar, 2017