解释性和简洁的遗传模糊系统强化学习策略

May, 2023

解释性和简洁的遗传模糊系统强化学习策略

A Genetic Fuzzy System for Interpretable and Parsimonious Reinforcement Learning Policies

Jordan T. Bishop, Marcus Gallagher, Will N. Browne

TL;DR本文介绍了一种名为 Fuzzy MoCoCo 的基于模糊规则的政策演化系统，它利用多目标和合作协同机制，通过在连续状态 RL 环境 Mountain Car 上测试，结果表明该系统能够有效地探索政策性能和复杂性之间的平衡，并学习使用尽可能少的规则的可解释和高性能政策。

Abstract

reinforcement learning (RL) is experiencing a resurgence in research interest, where learning classifier systems (LCSs) have been applied for many years. However, traditional Michigan approaches tend to evolve la

reinforcement learning learning classifier systems fuzzy rule-based policies multiobjectivity mountain car

发现论文，激发创造

使用匹兹堡学习分类器系统进行可解释性强化学习：与 XCS 的比较

本文介绍了在强化学习领域中 XAI 方法的一种组成部分 —— 基于规则的演化机器学习系统 Learning Classifier Systems (LCSs)，开发了两种新的 Pittsburgh LCSs (PPL-DL and PPL-ST)，并在 FrozenLake 环境中与 Michigan 系统 XCS 进行了实验比较，结果表明 PPL-ST 可以在高环境不确定性情况下与 XCS 相比表现更好，适合在 RL 领域中产生可解释的策略。

May, 2023

基因编程用于可解释强化学习策略

通过基于遗传编程的模型驱动批量强化学习，我们介绍了 GPRL 方法，可以从现有的默认状态 - 动作轨迹样本中自主学习策略方程，实验数据表明，相较于符号回归方法，GPRL 能够从现有默认轨迹数据中生产高性能，可解释的强化学习策略。

Dec, 2017

可解释化多智能体强化学习的概念学习

本文介绍了一种将领域专家的可解释概念纳入到多智能体强化学习模型中的方法，以提高模型的解释性和稳定性，提高性能和样本效率。

Feb, 2023

多阶段强化学习任务的协作策略开发

本文提出了合作连续策略（CCP) 方法，可以让连续的代理合作解决长时间跨度的多阶段任务，在多个测试领域中，该方法成功地超越了一组简单策略，单一代理以及另一个顺序 HRL 算法。

May, 2022

演化强化学习的合作协同进化

本文提出了一种新颖的合作共进化强化学习（CoERL）算法，旨在解决高维度神经网络优化效率问题，通过将策略优化问题分解为多个子问题并进化各个子问题的神经网络种群，使用部分梯度来更新策略，以提高采样效率。在六个基准运动任务上的实验表明，CoERL 优于七种最先进的算法和基准模型，并通过消融研究验证了 CoERL 核心要素的独特贡献。

Apr, 2024

基于概率模型预测控制的高效数据强化学习

本文提出了基于概率模型预测控制（MPC）的基于模型的 RL 框架，以减少与环境的相互作用次数的方法。该方法使用高斯过程学习概率转换模型来减少模型误差的影响，同时使用 MPC 找到最小化预期长期成本的控制序列，以达到在受限环境下使用 RL 的目的。

Jun, 2017

基于程序综合的混合优化强化学习方法

本论文提出一种 MORL 的框架，通过程序合成技术实现对基于神经网络的黑箱模型深度强化学习策略的改进，得到符号表示形式，使其可以被手动或自动调试，经过行为克隆和梯度下降法的改进，不断迭代直到满足所需约束，在 CartPole 问题上的实例研究表明该方法能够进行高效的策略学习改进。

Jul, 2018

集群政策决策排名

通过统计协方差估计的黑盒方法，基于聚类和决策重要性排序，来分析强化学习任务中决策对奖励的贡献和重要性，并与之前的基于统计错误定位的排序方法进行了比较。

Nov, 2023

基于概率模型的策略搜索学习鲁棒控制器

通过世界模型估计真实环境以逼近最优策略的基于模型的强化学习方法，通过在高斯过程动态模型中强制施加似然噪声的下限来正则化策略更新，从而得到更健壮的控制器。

Oct, 2021

基因蒸馏的政策优化

本文提出一种新的基因算法，名为遗传策略优化（GPO），用于样本有效的深度策略优化，通过状态空间中的模仿学习进行策略交叉并应用策略梯度方法进行变异，实验结果表明，GPO 优于现有的策略梯度方法，并实现了相当或更高的样本效率。

Nov, 2017