基于图形的可解释强化学习的两步混合策略学习
本研究提出一种新型的基于两层分层强化学习的目标驱动任务解决方法,使用 Goals Relational Graph 优化部分可观察的目标导向任务,例如目标驱动视觉导航,实验结果显示该方法在新环境和新目标上表现出卓越的泛化性能。
Mar, 2021
本文提出了一种用于有效的多任务强化学习的新框架,该框架可以训练代理人使用分层策略,决定何时使用先前学习的策略和何时学习新技能。该方法通过给代理人提供随机时间语法来帮助代理人学习分层策略中必要的复杂时间依赖关系,并在 Minecraft 游戏中进行了验证。
Dec, 2017
通过基于遗传编程的模型驱动批量强化学习,我们介绍了 GPRL 方法,可以从现有的默认状态 - 动作轨迹样本中自主学习策略方程,实验数据表明,相较于符号回归方法,GPRL 能够从现有默认轨迹数据中生产高性能,可解释的强化学习策略。
Dec, 2017
为了解释深度强化学习序列的决策,该研究提出了抽象策略图,作为一系列状态的马尔可夫链,以及基于值函数和观测到的转换的抽象策略图生成方法。该方法适用于许多现有的强化学习方法,具有二次时间复杂度和可靠性。
May, 2019
通过采用梯度提升机、可解释性提升机和符号回归的方法,将神经强化学习策略转化为透明的 “玻璃盒” 模型,用于提高控制策略的可解释性以及数据集聚合算法在行为克隆中的应用。
Mar, 2024
提出一种新的强化学习(Reinforcement Learning)模型,具有可解释性且支持深层次子目标(subgoal hierarchies)的发现。该模型使用概率规则学习有关环境的信息,而(子)目标的策略则是它们的组合。学习无需奖励函数,只需提供主要目标,而目标的子目标被计算为状态的描述,如果先前达成这些描述,便可提高给定目标的可用策略的总效率。这些状态描述通过引入新的传感器谓词来加入代理的规则语言中,从而允许传感到重要的中间状态并相应地更新环境规则和策略。
Feb, 2022
基于社会学习原理的 Social Interpretable RL (SIRL) 是一种改善学习效率的新型基于人口的方法,通过模拟社会学习过程使每个群体中的智能体基于自身的个体经验和与同伴的共同经验来解决给定任务,实现了在高风险场景中解释能力关键的强化学习应用。
Jan, 2024
开发交互系统,利用自然语言指令解决复杂的机器人控制任务是机器人学界长期以来的目标之一。本研究提出了 LGR2,这是一种新颖的层次强化学习框架,利用语言指令生成上层政策的稳定奖励函数,以解决非稳态问题,从而有效地利用语言指令解决机器人控制任务。通过实证分析,我们的方法在具有挑战性的稀疏奖励机器人导航和操作环境中获得了超过 70% 的成功率,并在真实世界的场景中展示了出色的泛化能力。
Jun, 2024
本文介绍了一种基于知识图谱的 RL 代理的层次化框架,通过在高层次执行元策略将整个游戏分解为一组由文本目标指定的子任务,并通过知识图谱选择其中一个,然后在低层次执行子策略进行目标条件强化学习,实验结果表明,所提出的方法具有较好的泛化性能。
Sep, 2021