VIME：变分信息最大化探索

NIPSMay, 2016

VIME: Variational Information Maximizing Exploration

Rein Houthooft, Xi Chen, Yan Duan, John Schulman, Filip De Turck...

TL;DR本篇论文提出了一种基于变分信息最大化探索的方法 VIME，使用贝叶斯神经网络中的变分推断实现，能有效处理连续状态和动作空间，在多种连续控制任务和算法中表现显著优于启发式探索方法。

Abstract

Scalable and effective exploration remains a key challenge in reinforcement learning (RL). While there are methods with optimality guarantees in the setting of discrete state and action spaces, these methods cannot be applied in high-dimensional deep rl scenarios. As such, most contemp

reinforcement learning exploration strategy deep rl variational inference bayesian neural networks

发现论文，激发创造

VIREL：一种变分推断框架的强化学习

提出一种新的基于概率模型的强化学习方法 VIREL，通过应用参数化的动作值函数来总结底层 MDP 系统的未来动态，使 VIREL 具有 KL 散度的寻找峰值形式、自然地从推断中学习确定性最佳策略的能力和分别优化价值函数和策略的能力。通过对 VIREL 应用变分期望最大化方法，我们表明可以将 Actor-critic 算法简化为期望最大化，其中策略改进对应 E 步骤，策略评估对应 M 步骤，最后，我们展示了来自这个家族的 Actor-critic 算法在几个领域优于基于软值函数的最新方法。

Nov, 2018

基于方差的奖励函数用于近似贝叶斯强化学习

提出了一种基于后验概率分布的奖励加成方法，用于在 Bayesian RL 中解决探索与利用之间的困境，实现高效且有效的探索，能够利用结构化的先验知识，并证明其具有多项式样本复杂度。

Mar, 2012

变分内在控制

本文介绍一种新的无监督强化学习方法，旨在通过最大化智能体可靠到达的不同状态的数量来发现可用的本质选项集，并提供隐式和显式的选项表示，提供在特定状态下使用的授权最大化代理所需的显式的授权度量。

Nov, 2016

基于模型的贝叶斯探索

本文论述的是如何在强化学习的算法中基于概率分布估算每个行动的信息价值，并选择能够平衡探索与利用的最佳行动。

Jan, 2013

强化学习中的概率推理正确实施

强化学习中，通过马尔科夫决策过程的图形模型，以概率推理的方式对各状态 - 行为对的访问概率进行研究。本研究采用贝叶斯方法，严格处理了状态 - 行为优化的后验概率，并阐明了其在马尔科夫决策过程中的流动方式。通过引入变分贝叶斯近似方法，得到了一个可行的凸优化问题，建立的策略也能有效地进行探索。该方法称为 VAPOR，与汤普森抽样、K 学习和最大熵探索有着紧密的联系。通过一些实验，展示了深度强化学习版本 VAPOR 在性能上的优势。

Nov, 2023

利用隐空间动态模型的信息最大化探索

本文提出一种基于模型行动选择的强化学习方法，该方法在价值函数的潜在特征空间中学习动态模型，实现机器人和环境的动态表示和模型自我激励，从而解决传统方法当中的探索与利用权衡问题，并使用贝叶斯信息理论方法在高维状态空间中实现高效的计算。我们在多个连续控制任务中评估了该方法的性能，重点是改善探索。

Apr, 2018

几何熵探索

本文介绍了通过 Geometric Entropy Maximisation (GEM) 算法，实现在离散和连续领域中最大化状态访问的 Shannon 熵的几何感知，以解决复杂的强化学习问题。该算法的优势在于可以很好地解决具有稀疏奖励的强化学习问题，并被证实比其他深度强化学习探索方法更有效。

Jan, 2021

想象，初始化和探索：一种有效的多智能体强化学习探索方法

通过使用一种新的方法，称为 Imagine, Initialize, and Explore (IIE)，该方法使用转换模型使多个智能体达到关键状态，并以此为起点进行探索，实现高效多智能体探索。在实际测试中，IIE 在复杂环境下表现出优异的性能，超过了其他多智能体探索基线，特别在稀疏奖励任务中有更好的表现，并产生比 CVAE-GAN 和扩散模型更有效的课程。

Feb, 2024

基于规划的探索：关于最优轨迹信息的研究

通过规划最大化任务最优轨迹的期望信息增益的行动序列，使得该方法在较低的样本量下能够学习较强的策略，比探索基线算法少用 2 倍样本，比模型自由方法少用 200 倍样本。

Oct, 2022

内在动机强化学习的变分信息最大化

本文提供了一种新的通过合并变分推理和深度学习技术以扩展优化相互信息的方法，该方法可用于从像素到动作的可伸缩信息最大化和基于赋权的推理。

Sep, 2015