特权知识蒸馏用于模拟到真实策略泛化
本研究探讨了运用特权信息(privileged information)提高机器学习系统的样本效率和性能的方法,研究表明采用 Privileged Information Dropout 在强化学习任务中(无论是基于值还是基于策略的 RL 算法)都比其他方法如蒸馏(distillation)和辅助任务(auxiliary task)具有更优的性能,并能够成功利用不同类型的特权信息,最后分析了其对学习表现的影响。
May, 2020
本文提出了一种基于强化学习的方法,用于合成具有丰富感知模态(例如视觉或深度)的机器人系统的任务驱动控制策略。该方法学会创建一种任务驱动表示来计算控制动作,以实现控制动作仅依赖任务相关信息。实验结果表明,我们的算法产生的任务驱动策略通常比标准策略梯度方法更加鲁棒性。
Feb, 2020
研究如何训练一个机器人能够在一个连续的学习情境中解决所有遇到的任务,而不会忘记以前的任务。研究采用强化学习算法,应用于三轮全向机器人的 2D 导航任务,通过状态表征学习和策略蒸馏的方法,提高算法的样本效率与任务综合性能。
Jun, 2019
通过把任务分解成不同的部分并利用动态的不平衡性,使用 “Hindsight States” 方法使得机器人学习更加高效。在多项挑战性仿真测试和一个真正的机器人示例中验证了该方法的有效性。
Mar, 2023
本研究利用多视角设置引入对比的多视图信息瓶颈目标训练深度强化学习代理程序,从而可以学习到能够保留任务相关信息但压缩掉任务不相关信息的强大的表示,进而训练出具有鲁棒性和泛化性的高性能政策。
Feb, 2021
本文提出了一种通过知识蒸馏和数据增强强化单摄像头视角下机器人操作任务的强化学习算法的方法,在模拟和现实环境下进行了实验验证并取得了良好效果。
Mar, 2023
在强化学习中,我们提出了一种无模拟器知识蒸馏的方法,通过重新初始化数据生成器,利用对抗损失来显式地处理每个输出类的多个观察值,以找到尽可能多的实例,从而改进了现有技术在 MNIST、Fashion-MNIST、CIFAR-10 等基准数据集上的学习情况,同时具体解决了涉及多输入模式时的问题。
Nov, 2020
本文研究了在观测结果高维的情况下,强化学习智能体如何使用对状态空间结构的抽象知识来学习目标领域中的任务。提出了一种名为 TASID 的算法,该算法学习目标任务的健壮策略,其采样复杂度是地平线次数的多项式,并且可以利用先前的知识独立于状态数。
May, 2022
本文研究在连续控制问题中如何将多个专项技能的策略组合在一起,为了解决这个问题作者扩展了策略蒸馏方法并通过模拟双足步态跨越不同类地形的领域中评估了该技术,同时还引入了一种输入注入方法来利用新的输入特征,最后,作者使用迁移学习来协助高效地获得新的技能。作者将自己的逐步学习方法与三种替代基线进行了比较。
Feb, 2018