基于层次结构的 KL 正则化强化学习中的学习和迁移

Mar, 2019

基于层次结构的 KL 正则化强化学习中的学习和迁移

Exploiting Hierarchy for Learning and Transfer in KL-regularized RL

Dhruva Tirumala, Hyeonwoo Noh, Alexandre Galashov, Leonard Hasenclever, Arun Ahuja...

TL;DR本文提出一种基于 KL 正则化预期奖励目标的强化学习代理方法，它可以利用先验知识并在解决方案空间中利用可重复使用的结构，同时讨论了在增加潜在变量的情况下如何实现分层结构的不同归纳偏置以及其中的置换学习问题。实验证明，这种代理方法可以应用于不同的连续控制任务中，获得更快的学习和置换效果。

Abstract

As reinforcement learning agents are tasked with solving more challenging and diverse tasks, the ability to incorporate prior knowledge into the learning system and to exploit reusable structure in solution space

reinforcement learning prior knowledge kl-regularized expected reward objective hierarchical structure transfer learning

发现论文，激发创造

KL 正则化强化学习中的信息不对称

研究如何通过限制收集到的信息，学习可重用行为作为默认策略，从而加速和规范学习过程，同时探讨了该策略与信息瓶颈方法和变分 EM 算法之间的联系，并在离散和连续动作领域提出了经验结果。

May, 2019

高效强化学习的行为先验

本文介绍了如何使用概率建模与信息结构约束相结合的方法来学习行为先验，并将其有效地整合到强化学习框架中，以实现多任务与转移学习。最后通过在一系列仿真连续控制域上的应用来展示该框架的有效性。

Oct, 2020

强化学习中的技能迁移：先验、层次和信息不对称性

通过对不对称选择的研究，提出了分层强化学习和 KL 正则化在技能传递方面的潜力，实验和理论结果展示了技能传递和表达能力间的权衡，并提出了一种基于不对称选择的技能选择方法。

Jan, 2022

使用 KL 惩罚的强化学习更适合视为贝叶斯推断

本文旨在分析强化学习如何应用于微调大型语言模型，研究 KL-regularized 强化学习的表现和原理，并论证 RL 并非是微调语言模型的最佳框架，而语言模型的微调应该被看做贝叶斯推断的问题。

May, 2022

层次强化学习的隐空间策略

本文介绍了一种学习分层深度神经网络策略，通过最大熵强化学习目标训练各层解决任务，并通过潜在随机变量进行增广，从而实现多层次策略学习。对标准基准测试任务，通过增加多层，可以改善高层策略表现。对于简单低层次的目标，高熵技能的优化学习可以解决更复杂的稀疏奖励任务。

Apr, 2018

利用平均值：RL 中 KL 正则化的分析

本文探讨强化学习中的 KL 正则化，发现其内在地平均了 q-values，并推导了一个具有两个优点的性能上界。该性能上界在时间序列上的依赖是线性的而非二次的，误差传播方程涉及到估计误差的平均效果而非累积效果。我们也对额外熵正则化的更一般情况进行了研究，这个抽象模型包含了许多现有的强化学习算法。

Mar, 2020

为什么在强化学习中层级结构有时候能够成功？

本研究评估了层次强化学习中多个优点在包含运动、导航和操作的任务套件上的表现，发现大多数观察到的层次性优势可以归因于改进的探索，而不是政策学习或强制性的层次结构。给定此洞察，我们提出了启发式的探索技术，其性能与层次强化学习相当，同时使用和实现要简单得多。

Sep, 2019

熵正则化强化学习中利用之前的奖励塑形和组合方案

本文提出了一种针对熵正则化强化学习中的奖励塑形和任务组合的方法，可以利用先前的解决方案帮助智能体快速解决新问题并加快学习速度。

Dec, 2022

基于优势辅助奖励的分层强化学习

本文提出一种基于 Hierarchical Reinforcement Learning 的框架，通过设置辅助奖励来适应下游任务，同时保持奖励设计的通用性。这种辅助奖励可实现高级策略和低级技能的高效、同时学习，无需使用特定任务的知识。实验结果表明，相比 Mujoco 领域中其他最先进的 HRL 方法，我们的算法有显著的性能优势，并且发现我们算法训练的低级和高级策略都是可转移的。

Oct, 2019

层次化模仿与强化学习

论文提出了一种算法框架，称为层次性指导，旨在通过利用专家的反馈来学习序贯决策制定策略，以应对奖励稀疏和时间范围长等问题，该框架可以在不同的层次上组合不同的 imitation learning 和 reinforcement learning，从而大大减少专家工作量和探索成本，并对该框架的某些实例的标注成本进行了理论分析。

Mar, 2018