DRIBO: 多视角信息瓶颈下的鲁棒深度强化学习

ICMLFeb, 2021

DRIBO: 多视角信息瓶颈下的鲁棒深度强化学习

DRIBO: Robust Deep Reinforcement Learning via Multi-View Information Bottleneck

Jiameng Fan, Wenchao Li

TL;DR本研究利用多视角设置引入对比的多视图信息瓶颈目标训练深度强化学习代理程序，从而可以学习到能够保留任务相关信息但压缩掉任务不相关信息的强大的表示，进而训练出具有鲁棒性和泛化性的高性能政策。

Abstract

deep reinforcement learning (DRL) agents are often sensitive to visual changes that were unseen in their training environments. To address this problem, we leverage the sequential nature of RL to learn robust representations that encode only task-relevant information from observations

deep reinforcement learning multi-view information bottleneck robust representations visual distractions generalization

发现论文，激发创造

通过信息瓶颈学习任务驱动的控制策略

本文提出了一种基于强化学习的方法，用于合成具有丰富感知模态（例如视觉或深度）的机器人系统的任务驱动控制策略。该方法学会创建一种任务驱动表示来计算控制动作，以实现控制动作仅依赖任务相关信息。实验结果表明，我们的算法产生的任务驱动策略通常比标准策略梯度方法更加鲁棒性。

Feb, 2020

通过多视角信息瓶颈学习强大的表示

本文提出了基于信息瓶颈原理的多视角无监督学习方法，通过对同一实体的两个视角进行对比得出冗余信息，进而定义新的多视角模型，在 Sketchy 数据集和 MIR-Flickr 数据集的标签受限版本上取得了最先进的结果；此外还通过数据扩增技术将理论扩展至单视角情况，实验证明更具有良好的泛化能力。

Feb, 2020

确定性多视角聚类的可微信息瓶颈

通过拟合互信息的规范化核格拉姆矩阵，我们提出了一种新的可微信息瓶颈方法 (DIB)，通过确定性和解析的方式有效地进行多视角聚类，实现了输入变量从不同视角的确定性压缩。

Mar, 2024

VIBR：学习视角不变值函数进行鲁棒视觉控制

本文提出基于多视角训练和不变预测的 VIBR 算法，从根本上解决具有视觉干扰的复杂环境下强化学习及视觉运动控制的鲁棒性问题，并在 Distracting Control Suite 基准测试中取得了最优结果。

Jun, 2023

深度强化学习中的信息瓶颈用于动态泛化

采用信息论正则化目标和一个退火优化方法来提高强化学习代理的泛化能力，从而在不同领域的任务中实现极端泛化，揭示信息理论和机器学习之间的联系。

Aug, 2020

特权知识蒸馏用于模拟到真实策略泛化

本文提出了一种称为历史信息瓶颈 (HIB) 的新型单阶段特权知识蒸馏方法，通过从历史轨迹中捕捉潜在的可变动态信息来学习特权知识表示，以弥合仿真与现实之间的差距，并证明该方法比现有方法具有更好的普适性。

May, 2023

学习潜在动态健壮表示的世界模型

利用视觉模型仿真提升强化学习效果，通过空时屏蔽策略和混合循环状态空间模型来准确捕捉环境的重要特征，以提高策略的学习与表现。

May, 2024

基于注意力机制的深度强化学习在多视角环境中的应用

研究了多视角环境下的深度强化学习问题，并提出基于注意力机制的方法以学习动态关注环境中不同视角的重要性以促进决策制定和复杂策略的学习。在 TORCS 赛车模拟器和三个其他带有障碍物的复杂 3D 环境上验证了该方法的有效性。

May, 2019

MVEB：多视图熵瓶颈的自监督学习

自我监督学习通过最大化两个视图的嵌入间的一致性和嵌入分布的差分熵，提出了多视图熵瓶颈方法（MVEB）来有效地学习最小的充分表示。实验证实，MVEB 显著提高了性能，在使用 ResNet-50 骨干网络进行线性评估时，ImageNet 的 top-1 准确率达到了 76.9％，是迄今为止的最新成果。

Mar, 2024

DreamerPro: 无需重建的基于模型的原型表示强化学习

本研究旨在提高基于模型的强化学习代理在处理视觉干扰方面的鲁棒性。我们提出了一种从世界模型的循环状态中学习原型表示的方法，将过去的观察和动作中的时间结构提取为原型。DreamerPro 模型通过将 Dreamer 与原型组合起来，在标准设置和存在复杂背景干扰的情况下都取得了大幅性能提高。

Oct, 2021