鲁棒可预测控制

Sep, 2021

Robust Predictable Control

Benjamin Eysenbach, Ruslan Salakhutdinov, Sergey Levine

TL;DR这篇研究论文提出了一种基于信息压缩的强化学习算法，通过最小化信息、建立自洽的潜在空间模型和策略来提高压缩性能，并在性能、鲁棒性和泛化性方面都有显著提升。

Abstract

Many of the challenges facing today's reinforcement learning (RL) algorithms, such as robustness, generalization, transfer, and computational efficiency are closely related to →

reinforcement learning compression information bottleneck model-based robustness

发现论文，激发创造

使用简单序列先验的强化学习

使用信息熵的目标函数和可压缩动作序列作为先验，提出了一种新的强化学习算法，能够学习解决包含可压缩序列动作的任务。在一系列连续控制任务中表现比最先进的无模型方法更好，并且产生出强大的信息正则化代理，能够对噪声观测进行鲁棒控制和执行开环控制。

May, 2023

压缩与控制

本文提出了一种新的信息论政策评估技术，该技术将任何压缩或密度模型转化为相应的值估计，研究了该技术在 Atari 2600 视频游戏中的应用，发现该技术提供足够准确的价值估计来有效地进行政策控制，并指出该技术在规模化问题上具有潜在的应用前景。

Nov, 2014

信息论模型预测 Q 学习

本研究提出了一种基于信息理论模型预测控制和熵正则化强化学习的 Q 学习算法，可以利用有偏模型，并在模拟控制任务中验证了该算法的有效性。

Dec, 2019

信息瓶颈下的传递和探索

提出了一种利用信息瓶颈机制学习判决状态的增值方法，通过对观察的状态进行分析，识别有潜力的子目标进行新的探索，并指导代理经过判决状态和状态空间的新区域。

Jan, 2019

深度强化学习中的信息瓶颈用于动态泛化

采用信息论正则化目标和一个退火优化方法来提高强化学习代理的泛化能力，从而在不同领域的任务中实现极端泛化，揭示信息理论和机器学习之间的联系。

Aug, 2020

通过信息瓶颈学习任务驱动的控制策略

本文提出了一种基于强化学习的方法，用于合成具有丰富感知模态（例如视觉或深度）的机器人系统的任务驱动控制策略。该方法学会创建一种任务驱动表示来计算控制动作，以实现控制动作仅依赖任务相关信息。实验结果表明，我们的算法产生的任务驱动策略通常比标准策略梯度方法更加鲁棒性。

Feb, 2020

KL 正则化强化学习中的信息不对称

研究如何通过限制收集到的信息，学习可重用行为作为默认策略，从而加速和规范学习过程，同时探讨了该策略与信息瓶颈方法和变分 EM 算法之间的联系，并在离散和连续动作领域提出了经验结果。

May, 2019

可证明的好的无须强探索批量强化学习

本文介绍了一种基于 Bellman 备份的批量强化学习算法，它采用一种更加保守的更新策略来提高输出策略的性能保证，并通过演示 MDP 示例和在标准基准测试中的实证比较来突出了我们保守更新的必要性和以前算法和分析的局限性。

Jul, 2020

逐步强化学习

该论文讨论了如何设计数据高效的强化学习智能体，提供了信息获取、信息表示和信息保留等方面的原则指导，并通过简单智能体的计算结果强调了数据效率的重要性。

Mar, 2021

iQRL - 隐式量化表示用于高效强化学习

使用自监督的潜在状态一致性损失提出了一种有效的表示学习方法，通过量化潜在表示以保留表示的秩，命名为 iQRL：隐式量化强化学习，可与任何无模型强化学习算法兼容，并在 DeepMind 控制套件的连续控制基准中表现优异，超过其他最近提出的表示学习方法。

Jun, 2024