- SMARLA: 深度强化学习智能体的安全监测方法
这篇论文介绍了一种基于机器学习的安全监控方法 SMARLA,适用于深度强化学习代理。SMARLA 利用状态抽象减少状态空间,并实现准确的违规预测和提前发现安全问题。
- ReactGenie:利用大型语言模型进行复杂多模态交互的面向对象状态抽象
本文介绍了 ReactGenie,这是一个使用共享面向对象状态抽象来支持构建复杂的多模态移动应用程序的编程框架。ReactGenie 是通过生成语言模型实现的自然语言理解的解决方案。我们评估了 ReactGenie 使用三个示例应用程序构建 - 基于结构信息原则的分层状态抽象
本文提出了一种基于信息论的数学结构信息原则的状态抽象框架 SISA,该框架具有一种无监督的,自适应的层次状态聚类方法和一个优化编码树。与其他五种最先进的状态抽象方法相比,实验结果表明,SISA 可以有效地提高每轮回报和样本效率,且可灵活地与 - 基于体验的关系状态抽象双层规划的主动学习
以对象为基础的环境中,提出一种基于在线互动的积极学习方法,用于自动学习谓词的诠释和符号规划的运算符,并使用这种方法来实现在机器人环境中的状态抽象和路径规划。
- 具有状态抽象的神经元情节控制
本文提出了一个基于状态抽象的故事式控制算法 NECSA,它采用了更全面的故事记忆、新颖的状态评估以及多步状态分析,对 OpenAI gym 域中的 MuJoCo 和 Atari 任务进行了评估,实验结果表明 NECSA 比最先进的故事式控制 - 学习符号表示以实现非马尔可夫行为的强化学习
利用知识表示和自动机结构,本文提出了一种自动发现有用状态抽象的端对端算法,用于学习非 Markov 领域下优化策略,相较于最先进的强化学习算法,能够在更少的环境样本下得到更优的结果。
- AAAI通过状态抽象将边缘重要抽样扩展到高维状态空间
本研究提出了一种基于状态抽象的离线策略评估方法,采用较低维的状态空间可以降低重要性采样中方差的影响,提高评估准确性和鲁棒性。
- ICML用于任务无关状态抽象的因果动态学习
本文介绍了一种名为 CDL 的任务无关状态抽象的因果关系动力学学习模型,它不仅从学习的动力学中产生状态抽象,而且还通过消除状态变量和动作之间的不必要依赖来提高泛化能力,并在两个模拟环境和下游任务中表现出比现有状态抽象方法更好的样本效率和对未 - 使用状态抽象的弹性蒙特卡罗树搜索在策略游戏中的应用
本文提出了一种名为弹性 MCTS 的算法,该算法使用状态抽象来玩策略游戏,通过动态聚类树节点,利用状态抽象带来的有效搜索同时避免了使用状态抽象对整个搜索的负面影响,并通过 Stratega 平台进行验证实验,结果表明 Elastic MCT - ICML双仿关系在目标条件强化学习中的应用
提出了一种名为 Goal-conditioned bisimulation 的状态抽象形式来捕捉功能等变性,该方法可以让代理器在没有明确目标的情况下从先前的行为中学习新的目标,并且证明其可以适用于任何由纯状态奖励函数描述的下游任务
- AAAI通过状态抽象进行多类队列的时变到达率最优入场控制
本文提出一个新的排队问题,该问题涉及价格、不同的价格分布和服务速率的任务,提出了一种基于强化学习的方法。实验表明,该方法适用于金融欺诈检测。
- ICLR价值函数空间:面向技能的状态抽象实现长程推理
该论文探讨了如何使用层次强化学习来解决长期任务中存在的性能问题,并提出了一种名为 Value Function Spaces 的状态抽象方法,通过利用对应于每个低层技能的价值函数来表示任务相关信息,从而在迷宫解决和机器人操纵等任务中提高了性 - IJCAI具备继承特性的选项传输和 SMDP 抽象
本文研究了强化学习中的联合时间和状态抽象,其中采用继承特征的新颖抽象机制,使得抽象选项可以在不同环境下转移并进行有效规划。
- ICML通过状态近似抽象实现近似最优行为
本研究探讨了使用状态抽象来减轻计划和强化学习算法中的组合爆炸问题。我们研究了近似状态抽象的理论保证和在各种环境中的有效性。结果表明,使用近似抽象可以减少任务复杂度和行为最优性的损失。
- 探索性梯度提升用于复杂领域强化学习
该研究提出一种非参数函数逼近器和基于状态抽象和信息获取的不确定性探索策略来处理高维环境下的强化学习挑战,并在 Minecraft 游戏中进行了验证,结果表明这两种技术结合起来在标准强化学习任务中表现出色并在高维观察空间的任务中优于基准算法, - FluCaP:用于一阶 MDPs 的启发式搜索规划器
该论文提出了一种启发式搜索算法来解决一阶马尔可夫决策过程,其方法结合了一阶状态抽象和启发式搜索,以避免对所有状态进行评估,并通过可达性引导来限制搜索。该方法在国际计划竞赛中取得了较好的成绩。
- MAXQ 值函数分解的层次强化学习
该论文提出了基于 MAXQ 方法的分层强化学习,该方法通过将目标 MDP 分解为较小的 MDP 层次结构,并将目标 MDP 的值函数分解为较小 MDP 的值函数的加性组合来进行操作。同时,该论文引入了五个条件以安全地使用状态抽象。此外,该论