马尔可夫决策过程中的几何主动探索: 抽象的好处

Jul, 2024

马尔可夫决策过程中的几何主动探索: 抽象的好处

Geometric Active Exploration in Markov Decision Processes: the Benefit of Abstraction

Riccardo De Santi, Federico Arangath Joseph, Noah Liniger, Mirco Mutti, Andreas Krause

TL;DR这篇研究论文介绍了利用强化学习（Reinforcement Learning）算法设计动力系统状态空间上的实验的方法，通过将优化问题转化为凸强化学习（Convex RL），并利用几何结构进行抽象，提出了具有统计和计算效率优势的几何主动探索（Geometric Active Exploration）算法。

Abstract

How can a scientist use a reinforcement learning (RL) algorithm to design experiments over a dynamical system's state space? In the case of finite and Markovian systems, an area called active exploration (AE) rel

发现论文，激发创造

基于状态抽象的近似探索

研究强化学习中探索和近似之间的相互作用，提出一种基于密度建模的方法来改善探索，探讨伪计数奖励在此方法中的应用，发现了在其应用中可能存在的过度或不足探索问题，并提出一种新的伪计数奖励来缓解这些问题。

Aug, 2018

深度学习中基于MDP同态的在线抽象

本论文提出了一种新的算法来找到在具有连续状态空间的环境中的MDP抽象，基于MDP同态，该算法演示了抽象学习的能力并展示了如何重用这些抽象来引导在新任务中的探索。论文中的任务转移方法在大多数实验中优于基于深度Q网络的基准线。

Nov, 2018

马尔可夫决策过程中的主动探索

本研究针对在Markov决策过程中的主动探索问题进行了研究，提出了一种新的学习算法，用以解决MDPs中的主动探索问题并证明了其相对于MAB来说更为复杂，同时也给出了一个用于缓解策略收敛速度缓慢的启发式过程。

Feb, 2019

机械状态抽象与可证明高效丰富观测强化学习

本文提出了一种探索和强化学习算法HOMER，可以在图像等场景的高维观测环境中完成学习，能够有效提取问题的抽象状态，并应用将其转化为最优策略，相比标准的强化学习基线算法，HOMER具有更高的样本效率。

Nov, 2019

深度强化学习的马尔可夫状态抽象学习

该研究提出了一种学习马尔科夫状态抽象表示的新方法，结合逆向模型估计和时态对比学习，可以提高强化学习中的样本效率。

Jun, 2021

基于模型的强化学习的实验设计视角

本文提出利用贝叶斯最优实验设计思想指导选择状态-动作对查询以达到高效学习的方法，即提出一种衡量一个状态-动作对对马尔可夫决策过程的最优解提供多少信息的获取函数，在每次迭代中，我们的算法最大化这个获取函数，选择提供最多信息的状态-动作对被查询，从而获得高效的数据驱动强化学习方法；在多个连续控制问题上实验，相比于基于模型或无模型的RL基线方法，本文方法学习出的最优策略所需样本量减少了5-1000倍。

Dec, 2021

非马尔科夫决策过程中PAC强化学习的马尔科夫抽象

本文提出了一种结合自动机学习和经典强化学习的算法，用于学习非马尔可夫决策流程中的马尔科夫抽象，并且证明该算法具有PAC保证。

Apr, 2022

通过奖励塑造在基于情节的强化学习中利用多重抽象

研究提出了一种基于奖励设计的强化学习算法，通过使用层次结构的抽象模型，将抽象层级中的解决方案用于指导更复杂领域的学习，从而提高了学习效率且具有实际应用价值。

Feb, 2023

PAC 强化学习的主动覆盖

本研究提出了一个灵活的框架来解决强化学习过程中数据覆盖率问题，并通过 CovGame 算法来匹配最低采样复杂度，进而解决了不同的演示性增强学习任务问题。

Jun, 2023

强化学习中的无模型主动探索

采用信息论的观点，我们研究强化学习中的探索问题，并提出了一种新颖的无模型解决方案，通过推导实例特定的下界以及最优的探索策略，我们衍生出一种基于集成模型的无模型探索策略，适用于表格和连续马可夫决策过程，数值结果表明我们的策略能够比最先进的探索方法更快地找到高效的策略。

Jun, 2024