KL 正则化强化学习中的信息不对称

ICLRMay, 2019

KL 正则化强化学习中的信息不对称

Information asymmetry in KL-regularized RL

Alexandre Galashov, Siddhant M. Jayakumar, Leonard Hasenclever, Dhruva Tirumala, Jonathan Schwarz...

TL;DR研究如何通过限制收集到的信息，学习可重用行为作为默认策略，从而加速和规范学习过程，同时探讨了该策略与信息瓶颈方法和变分 EM 算法之间的联系，并在离散和连续动作领域提出了经验结果。

Abstract

Many real world tasks exhibit rich structure that is repeated across different parts of the state space or in time. In this work we study the possibility of leveraging such repeated structure to speed up and

structure regularize learning default policy variational em algorithm

发现论文，激发创造

基于层次结构的 KL 正则化强化学习中的学习和迁移

本文提出一种基于 KL 正则化预期奖励目标的强化学习代理方法，它可以利用先验知识并在解决方案空间中利用可重复使用的结构，同时讨论了在增加潜在变量的情况下如何实现分层结构的不同归纳偏置以及其中的置换学习问题。实验证明，这种代理方法可以应用于不同的连续控制任务中，获得更快的学习和置换效果。

Mar, 2019

强化学习中的技能迁移：先验、层次和信息不对称性

通过对不对称选择的研究，提出了分层强化学习和 KL 正则化在技能传递方面的潜力，实验和理论结果展示了技能传递和表达能力间的权衡，并提出了一种基于不对称选择的技能选择方法。

Jan, 2022

使用 KL 惩罚的强化学习更适合视为贝叶斯推断

本文旨在分析强化学习如何应用于微调大型语言模型，研究 KL-regularized 强化学习的表现和原理，并论证 RL 并非是微调语言模型的最佳框架，而语言模型的微调应该被看做贝叶斯推断的问题。

May, 2022

深度强化学习中的信息瓶颈用于动态泛化

采用信息论正则化目标和一个退火优化方法来提高强化学习代理的泛化能力，从而在不同领域的任务中实现极端泛化，揭示信息理论和机器学习之间的联系。

Aug, 2020

鲁棒可预测控制

这篇研究论文提出了一种基于信息压缩的强化学习算法，通过最小化信息、建立自洽的潜在空间模型和策略来提高压缩性能，并在性能、鲁棒性和泛化性方面都有显著提升。

Sep, 2021

利用平均值：RL 中 KL 正则化的分析

本文探讨强化学习中的 KL 正则化，发现其内在地平均了 q-values，并推导了一个具有两个优点的性能上界。该性能上界在时间序列上的依赖是线性的而非二次的，误差传播方程涉及到估计误差的平均效果而非累积效果。我们也对额外熵正则化的更一般情况进行了研究，这个抽象模型包含了许多现有的强化学习算法。

Mar, 2020

利用信息正则化学会共享与隐藏意图

本研究提出一种信息理论规则化方法，以学习多智能体强化学习中的合作和竞争策略，结果在两个简单的非对称信息博弈中表明，使用我们提出的方法学习到的合作（竞争）策略会带来更多（更少）的奖励。

Aug, 2018

多任务强化学习中的知识精炼优化传递

通过使用 Sinkhorn 映射来替换 Kullback-Leibler 散度，进一步提高多任务强化学习的数据效率，并通过实验证明新增的基于最优传输的奖励可以加速智能体的学习过程，优于多任务学习中的几个基准模型。

Sep, 2023

演示调整的强化学习

利用专家演示来改善强化学习的样本效率，本研究量化了额外信息在降低样本复杂度方面的理论效果，并证明了 KL - 正则化方法在处理人类反馈强化学习中的优势。

Oct, 2023

LS-IQ: 隐式奖励正则化的逆强化学习

本文研究了使用正则化的隐式奖励函数来解决穿透状态和不稳定性问题，提出了一种新的方法，即最小二乘逆 Q 学习方法 (LS-IQ)，在关键领域取得了最好的性能，特别是在存在穿透状态的环境中。并且我们提出使用逆动力学模型来仅仅通过观察就开始学习。

Mar, 2023