DeepSynth：深度强化学习中任务自动划分的自动机合成

AAAINov, 2019

DeepSynth：深度强化学习中任务自动划分的自动机合成

DeepSynth: Automata Synthesis for Automatic Task Segmentation in Deep Reinforcement Learning

Mohammadhosein Hasanbeig, Natasha Yogananda Jeppu, Alessandro Abate, Tom Melham, Daniel Kroening

TL;DRDeepSynth 是一种有效训练深度强化学习代理的方法，可在奖励稀疏和非 Markovian 的情况下实现，同时也需要实现未知的高级目标序列。该方法利用合成紧凑自动机的新算法自动发现这种序列结构，并使用环境的跟踪数据合成一个可解释的自动机，从而为控制策略的生成提供指导，并且相较于现有方法在 Montezuma's Revenge 等实验中在策略合成所需的迭代次数上获得了两个数量级的降低，同时也能显著提高可扩展性。

Abstract

This paper proposes deepsynth, a method for effective training of deep reinforcement learning (RL) agents when the reward is sparse and non-Markovian, but at the same time progress towards the reward requires ach

deepsynth reinforcement learning sparse rewards synthesis of compact automata montezuma's revenge

发现论文，激发创造

使用隐马尔可夫模型的自动机学习任务自动化增强学习

该论文提出了一种从代理环境经验中学习非马尔可夫任务规范的新方法，可以将任务拆分为其构成子任务，提高了 RL 代理后续合成最优策略的速率，并提供了一个可解释的编码高级环境和任务特征的方式。

Aug, 2022

自动机蒸馏：神经符号转移学习用于深度强化学习

通过引入自动机蒸馏的形式的神经符号传递学习，以及静态传递和动态传递方法的使用，成功减少了找到各种决策任务的最佳策略所需的时间。

Oct, 2023

DRiLLS: 深度强化学习用于逻辑综合

提出了一种基于强化学习的方法，自动化优化逻辑综合过程，通过训练 Actor Critic（A2C）智能体来实现无人工干预的设计优化，取得了较好的优化结果。

Nov, 2019

强化学习在定向控制器合成中的扩展应用

本研究提出使用强化学习基于状态特征学习启发式启发式方法且优化了 Deep Q-Network，以用于解决离散事件系统中的无阻塞属性，实现在小规模问题上的学习推广到更大规模问题实例，结果表明其效果更好。

Oct, 2022

连续随机动力学学习环境模型

通过深度强化学习、自动化学习和马尔可夫决策过程等技术，学习出由自主智能体控制的环境模型，以解决复杂环境下的控制问题，并在多个强化学习基准环境中验证了方法的有效性。

Jun, 2023

基于深度强化学习策略的分层控制器合成

我们提出了一种新颖的方法来解决以马尔可夫决策过程（MDP）建模的环境的控制器设计问题。具体而言，我们考虑了一个层次 MDP，该图的每个顶点由一个名为 “房间” 的 MDP 填充。我们首先应用深度强化学习（DRL）来获取每个房间的低级策略，适用于未知结构的大型房间。然后，我们应用反应合成来获取一个高级规划器，该规划器选择在每个房间中执行哪个低级别策略。在综合规划器中的核心挑战是对房间建模的需求。我们通过开发一种 DRL 过程来训练简洁的 “潜在” 策略以及对其性能的 PAC 保证来解决这一挑战。与以前的方法不同，我们的方法避开了模型蒸馏步骤。我们的方法解决了 DRL 中稀疏奖励的问题，并实现了低级策略的可重用性。我们通过一个案例研究展示了可行性，该研究涉及在移动障碍物中的智能体导航。

Feb, 2024

基于网格的强化学习环境中的通用和可解释知识学习

使用程序合成方法对深度强化学习代理进行模仿，以了解其学习的概念和决策过程。

Sep, 2023

面向符号自动机编码目标的无模型强化学习

本文提出使用符号自动机的形式规范，来代替马尔可夫奖励，并定义了使用潜在奖励的策略，来提高强化学习的收敛性。

Feb, 2022

合成体验回放

通过利用生成模型技术，我们提出了 Synthetic Experience Replay（SynthER），这是一种基于扩散的方法，能够有效地提高在数据有限的情况下训练强化学习代理的样本效率，并为重放学习算法的深度学习实现开启了使用合成数据的大门。

Mar, 2023

使用强化学习学习如何导航合成可达的化学空间

本研究提出了一种基于增强学习框架的新型前向合成模型 (PGFS)，可以解决化学分子结构的可合成性和合成路线问题，该模型可以为机器学习的药物设计提供一个有挑战性的基础测试平台。

Apr, 2020