以变分授权为代表学习目标导向的强化学习

ICMLJun, 2021

以变分授权为代表学习目标导向的强化学习

Variational Empowerment as Representation Learning for Goal-Based Reinforcement Learning

Jongwook Choi, Archit Sharma, Honglak Lee, Sergey Levine, Shixiang Shane Gu

TL;DR通过代表愿景达成的功能感知状态表示进行的变分互信息最大化，能够为达到愿景状态的广泛应用的多任务策略的自监督强化学习提供框架和方法，同时还提出了广义 GCRL 和 MI-Based RL 的统一方法，即 VGCRL，并结合方法的容量和光滑性分析了能力扩展，以及其与不同线性变换结构的潜在目标发现算法的比较评价指标，即 LGR。

Abstract

Learning to reach goal states and learning diverse skills through mutual information (MI) maximization have been proposed as principled frameworks for self-supervised reinforcement learning, allowing agents to acquire broadly applicable multitask policies with minimal reward engineerin

self-supervised reinforcement learning mutual information maximization variational gcrl representation learning latent goal reaching

发现论文，激发创造

变分课程增强学习用于无监督技能发现

基于互信息的强化学习作为一种无需任务导向奖励函数的复杂技能自主检索方法已被提出，但由于训练技能的顺序会在很大程度上影响样本效率，对于学习复杂技能仍具有挑战性。本文提出了一种名为变分课程强化学习（VCRL）的方法，将变分增强视为内在奖励函数的目标条件强化学习中的课程学习，并基于信息理论提出了一种无监督技能发现的新方法，称为值不确定性变分课程（VUVC）。我们证明，在一定的正则条件下，与均匀课程相比，VUVC 能够加快访问状态熵的增加。我们通过复杂导航和机器人操作任务验证了我们方法的有效性，同时以零次设定下的真实世界机器人导航任务为例，证明了通过我们方法发现的技能能够成功完成任务，并且将这些技能与全局规划器相结合可以进一步提高性能。

Oct, 2023

基于变分反强化学习的对抗性模仿

通过生成敌对网络框架，提出一种以权力为基础的正则化最大熵逆向强化学习来学习接近最优的奖励和策略，同时学习变分信息最大化下的权力，并在各种高维复杂控制任务和具有挑战性的转移学习问题上进行了评估，证明了该方法不仅匹配专家行为而且比最先进的逆向强化学习算法表现显著优异。

Sep, 2018

基于视觉模型的强化学习中通过赋能实现信息优先级排序

提出一种改进目标函数的模型化强化学习算法，通过互信息最大化来学习视觉模型化强化学习的表示和动力学，并将与行动相关的信息优先考虑，同时提高探索速度和样本效率。在视觉机器人控制任务上进行了评估，表明该方法比基于模型的先进 RL 方法具有更高的性能和采样效率。

Apr, 2022

变分内在控制

本文介绍一种新的无监督强化学习方法，旨在通过最大化智能体可靠到达的不同状态的数量来发现可用的本质选项集，并提供隐式和显式的选项表示，提供在特定状态下使用的授权最大化代理所需的显式的授权度量。

Nov, 2016

基于变分逆强化学习的多任务可迁移奖励学习

利用生成对抗网络框架下的多任务环境下的赋能制约技术，从无标记的专家示例中同时学习可转移的多任务奖励函数和策略，并证明其比现有的模仿学习方法具有更好的性能和数据效率。

Jun, 2022

变分赋能实现无监督实时控制

介绍了一种计算实用价值下限的方法，使其可用作实时控制中的无监督代价函数，尤其适合于连续动态系统。

Oct, 2017

运用变分因果推理泛化目标条件强化学习

利用 Causal Graph 加强了 Goal-Conditioned RL，提出了一种理论性能保证的优化框架，包括因果性发现、转换建模和策略训练的循环以提高 RL 代理的推理和泛化能力，并在九种任务上与五个基线进行了实证效果验证。

Jul, 2022

分层赋权：实现可行的基于赋权的技能学习

通用目标代理需要大量的技能。我们介绍了一种新的框架，层次赋权，在计算赋权时将自目标条件层次强化学习的概念整合进去，通过引入变分下界和层次结构计算赋权。这个框架的研究证实，我们的四级代理能够学习涵盖比之前工作大两个数量级的技能，以在模拟机器人任务中验证其贡献。

Jul, 2023

统一的贝尔曼最优性原理：整合奖励最大化和能量增强

本文研究了内在激励方法 —— 授权在外在奖励信号的增强学习中的应用，提出了一个授权奖励最大化的统一 Bellman 最优性原则，发展了基于授权的演员 - 评论家强化学习算法，并在高维连续机器人领域验证了其性能优于现有技术。

Jul, 2019

无监督稳定性高效赋能估计

为了解决通过变分下界 (VLB) 计算确定性经验上均衡值 (EEI) 方法存在的繁琐、高成本等问题，本文采用了基于可训练的高斯信道来构建一种通用的无偏 EM 算法，提出了一种新型方法，能够在不考虑外在奖励的情况下，通过包含每个执行器和未来状态之间的量的交互信息来实现不同控制环境下的稳定性控制，而且该方法能够大大降低采样的复杂性，并展示了该方法的优点。

Jul, 2020