特权知识蒸馏用于模拟到真实策略泛化

May, 2023

特权知识蒸馏用于模拟到真实策略泛化

Privileged Knowledge Distillation for Sim-to-Real Policy Generalization

Haoran He, Chenjia Bai, Hang Lai, Lingxiao Wang, Weinan Zhang

TL;DR本文提出了一种称为历史信息瓶颈 (HIB) 的新型单阶段特权知识蒸馏方法，通过从历史轨迹中捕捉潜在的可变动态信息来学习特权知识表示，以弥合仿真与现实之间的差距，并证明该方法比现有方法具有更好的普适性。

Abstract

reinforcement learning (RL) has recently achieved remarkable success in robotic control. However, most RL methods operate in simulated environments where →

reinforcement learning sim-to-real gap privileged knowledge historical information bottleneck robotic control

发现论文，激发创造

强化学习中特权信息丢弃

本研究探讨了运用特权信息（privileged information）提高机器学习系统的样本效率和性能的方法，研究表明采用 Privileged Information Dropout 在强化学习任务中（无论是基于值还是基于策略的 RL 算法）都比其他方法如蒸馏（distillation）和辅助任务（auxiliary task）具有更优的性能，并能够成功利用不同类型的特权信息，最后分析了其对学习表现的影响。

May, 2020

通过信息瓶颈学习任务驱动的控制策略

本文提出了一种基于强化学习的方法，用于合成具有丰富感知模态（例如视觉或深度）的机器人系统的任务驱动控制策略。该方法学会创建一种任务驱动表示来计算控制动作，以实现控制动作仅依赖任务相关信息。实验结果表明，我们的算法产生的任务驱动策略通常比标准策略梯度方法更加鲁棒性。

Feb, 2020

使用策略蒸馏和 Sim2Real 传输在现实中部署的连续强化学习

研究如何训练一个机器人能够在一个连续的学习情境中解决所有遇到的任务，而不会忘记以前的任务。研究采用强化学习算法，应用于三轮全向机器人的 2D 导航任务，通过状态表征学习和策略蒸馏的方法，提高算法的样本效率与任务综合性能。

Jun, 2019

回顾状态：将模拟和真实任务要素融合以实现高效强化学习

通过把任务分解成不同的部分并利用动态的不平衡性，使用 “Hindsight States” 方法使得机器人学习更加高效。在多项挑战性仿真测试和一个真正的机器人示例中验证了该方法的有效性。

Mar, 2023

DRIBO: 多视角信息瓶颈下的鲁棒深度强化学习

本研究利用多视角设置引入对比的多视图信息瓶颈目标训练深度强化学习代理程序，从而可以学习到能够保留任务相关信息但压缩掉任务不相关信息的强大的表示，进而训练出具有鲁棒性和泛化性的高性能政策。

Feb, 2021

机器人操作任务的多摄像头视角到单摄像头视角知识蒸馏的视觉策略学习

本文提出了一种通过知识蒸馏和数据增强强化单摄像头视角下机器人操作任务的强化学习算法的方法，在模拟和现实环境下进行了实验验证并取得了良好效果。

Mar, 2023

生成对抗模拟器

在强化学习中，我们提出了一种无模拟器知识蒸馏的方法，通过重新初始化数据生成器，利用对抗损失来显式地处理每个输出类的多个观察值，以找到尽可能多的实例，从而改进了现有技术在 MNIST、Fashion-MNIST、CIFAR-10 等基准数据集上的学习情况，同时具体解决了涉及多输入模式时的问题。

Nov, 2020

深度强化学习中的信息瓶颈用于动态泛化

采用信息论正则化目标和一个退火优化方法来提高强化学习代理的泛化能力，从而在不同领域的任务中实现极端泛化，揭示信息理论和机器学习之间的联系。

Aug, 2020

具有潜在动态信息的可证明样本效率强化学习

本文研究了在观测结果高维的情况下，强化学习智能体如何使用对状态空间结构的抽象知识来学习目标领域中的任务。提出了一种名为 TASID 的算法，该算法学习目标任务的健壮策略，其采样复杂度是地平线次数的多项式，并且可以利用先前的知识独立于状态数。

May, 2022

多技能动作控制的渐进式蒸馏强化学习

本文研究在连续控制问题中如何将多个专项技能的策略组合在一起，为了解决这个问题作者扩展了策略蒸馏方法并通过模拟双足步态跨越不同类地形的领域中评估了该技术，同时还引入了一种输入注入方法来利用新的输入特征，最后，作者使用迁移学习来协助高效地获得新的技能。作者将自己的逐步学习方法与三种替代基线进行了比较。

Feb, 2018