信息瓶颈下的传递和探索

ICLRJan, 2019

InfoBot: Transfer and Exploration via the Information Bottleneck

Anirudh Goyal, Riashat Islam, Daniel Strouse, Zafarali Ahmed, Matthew Botvinick...

TL;DR提出了一种利用信息瓶颈机制学习判决状态的增值方法，通过对观察的状态进行分析，识别有潜力的子目标进行新的探索，并指导代理经过判决状态和状态空间的新区域。

Abstract

A central challenge in reinforcement learning is discovering effective policies for tasks where rewards are sparsely distributed. We postulate that in the absence of useful reward signals, an effective exploration strat

reinforcement learning exploration strategy decision states information bottleneck subgoals

发现论文，激发创造

通过信息瓶颈学习任务驱动的控制策略

本文提出了一种基于强化学习的方法，用于合成具有丰富感知模态（例如视觉或深度）的机器人系统的任务驱动控制策略。该方法学会创建一种任务驱动表示来计算控制动作，以实现控制动作仅依赖任务相关信息。实验结果表明，我们的算法产生的任务驱动策略通常比标准策略梯度方法更加鲁棒性。

Feb, 2020

强化学习的对比初始状态缓冲器

强化学习中，探索和利用之间的权衡对于从有限样本中实现有效学习提出了复杂的挑战。我们引入了对比初始状态缓冲区的概念，独立于底层的强化学习算法，选择过去的经验中的状态并使用它们来初始化环境中的智能体，以引导它朝着更有信息量的状态发展。实验结果表明，我们的初始状态缓冲区在任务性能方面超过了基准线，同时还加速了训练收敛。

Sep, 2023

鲁棒可预测控制

这篇研究论文提出了一种基于信息压缩的强化学习算法，通过最小化信息、建立自洽的潜在空间模型和策略来提高压缩性能，并在性能、鲁棒性和泛化性方面都有显著提升。

Sep, 2021

基于瓶颈选项学习的无监督技能发现

本文提出了一种新颖的无监督技能发现方法 —— 信息瓶颈选项学习 (IBOL)，它能够通过推动更多的不同状态转换来吸收环境中固有的技能，并通过信息瓶颈框架对这些技能进行抽象，从而提高了稳定性和可分离性。实验证明，IBOL 在 MuJoCo 环境中的信息熵评估和下游任务中的性能超过了多种最先进的无监督技能发现方法。

Jun, 2021

瓶颈模拟器：一种基于模型的深度强化学习方法

提出了一种基于模型的强化学习方法 —— 瓶颈模拟器，通过学习环境的因式分解的过渡模型和滚动模拟来从很少的例子中学习一种有效的策略，在自然语言处理任务上得到了优异的表现。

Jul, 2018

深度强化学习中的信息瓶颈用于动态泛化

采用信息论正则化目标和一个退火优化方法来提高强化学习代理的泛化能力，从而在不同领域的任务中实现极端泛化，揭示信息理论和机器学习之间的联系。

Aug, 2020

神经精馏在强化学习中的状态表示瓶颈

通过模拟多个策略的过程进行知识蒸馏以及使用单个神经网络来学习有利特征的状态表示，可用于强化学习的多个任务之间的转移和更好的泛化能力，并通过选择重要变量、有效分离状态以及新任务的鲁棒性等三个标准对状态编码进行评估。

Oct, 2022

基于互信息的状态控制方法用于内在驱动强化学习

基于内部驱动的强化学习算法以目标状态和可控状态之间的相互信息为内在目标，在机器人操纵和导航任务中取得了明显的成果。

Feb, 2020

Drop-Bottleneck: 学习离散压缩表示以实现鲁棒性噪声探索

我们提出了一种名为 Drop-Bottleneck 的信息瓶颈方法，该方法可以离散地删除与目标变量无关的特征。Drop-Bottleneck 不仅具有简单易行的压缩目标，而且还提供确定性压缩表示，可用于需要一致表示的推理任务。此外，它可以同时学习特征提取器和考虑到目标任务与每个特征维度之间关系的特征选择，这是大多数基于神经网络的 IB 方法所无法达到的。我们提出了一种基于 Drop-Bottleneck 的探索方法，适用于强化学习任务。在 VizDoom 和 DMLab 中的众多嘈杂和奖励稀疏的迷宫导航任务中，我们的探索方法实现了最先进的性能。作为一种新的 IB 框架，我们证明了 Drop-Bottleneck 在多个方面包括对抗鲁棒性和降维方面均优于 Variational Information Bottleneck（VIB）（Alemi 等人，2017）。

Mar, 2021

基于规划的探索：关于最优轨迹信息的研究

通过规划最大化任务最优轨迹的期望信息增益的行动序列，使得该方法在较低的样本量下能够学习较强的策略，比探索基线算法少用 2 倍样本，比模型自由方法少用 200 倍样本。

Oct, 2022