- 决策 - 注意力的在线策略蒸馏
通过引入决策 - 注意力模块,我们提出了一种在线学习框架,不依赖于教师策略,能够在相同环境下不同策略之间转移知识,提高深度强化学习任务的性能。实验证明,我们的方法在不同任务中,相比于独立训练策略,在 PPO 和 DQN 算法上表现更好,有效 - 抓取一切:将教师增强的策略梯度学习与实例分割相结合,抓取任意物体
交互抓取从杂乱环境中非常类似于人类灵巧度的问题中,是机器人学习中最久远的问题之一。我们提出了一种新颖的两阶段学习框架 —— 师傅增益策略梯度(TAPG),将强化学习和策略蒸馏相结合。通过训练一位师傅策略以掌握基于物体姿态信息的运动控制,TA - 金融时间序列的无模型控制的课程学习与模仿学习
课程学习和模仿学习在机器人领域得到广泛应用,但对于基于高度随机时间序列数据的控制任务,研究工作较少。本研究通过数据增广实现了课程学习的基本思想,通过策略提炼从模型中学习实现了模仿学习,并发现课程学习可以提高复杂时间序列控制任务的性能,这一发 - 增强回放的连续强化学习
RECALL 是一种重播增强方法,通过自适应规范化和旧任务的策略蒸馏,在新任务上增强普适性和稳定性,从而显著改善持续强化学习中灾难性遗忘的问题。在 Continual World 基准测试中,RECALL 的性能明显优于纯粹的完美记忆重播, - 基于共识导向的多智能体通信的分散自适应编队
提出了一种新的 Cons-DecAF 框架,通过使用 ConsMAC 方法进行多智能体强化学习,利用策略蒸馏实现自适应编队调整,并采用基于 Hausdorff 距离的位移式编队,取得了出色的速度和稳定性表现。
- 软动作先验:实现强化学习中的稳健策略转移
通过引入动作先验,结合奖励整形和辅助正则化损失的方法,该论文提出了一种适应性算法,可以高效地利用先验知识,特别是软动作先验,取得了在 Reinforcement Learning 问题上的最新成果和深度 RL 的鲁棒性改进。
- 基于强化学习的机器人导航中改进的策略蒸馏
通过多个场景可验证强化学习通过策略提取(MSVIPER)提出了一种新的策略精馏方法,用于改进机器人导航。通过任何 RL 技术学习状态 - 动作映射,并使用模仿学习从中学习决策树策略,从而学习 “专家” 策略。我们通过室内和室外场景的机器人导 - 选择性输入梯度正则化的政策蒸馏以实现高效可解释性
本研究提出了一种称作 Distillation with selective Input Gradient Regularization (DIGR) 的方法,利用政策精炼和输入梯度正则化生成新政策,从而实现生成适用于实景且高效的可解释性 - ECCV高效多智能体合作视觉探索学习
本研究提出了一种基于强化学习的算法,引入了新颖的多智能体规划模块 MSP 和空间平移变换器 Spatial-TeamFormer,实现了多智能体协作视觉探测,经过政策蒸馏提取的元策略大大提高了最终策略的泛化能力,并在一个真实的 3D 模拟器 - 使用深度强化学习玩完整的 MOBA 游戏
提出了一种 MOBA 游戏 AI 学习范式,采用深度强化学习及新型学习技术,可训练玩家池多的游戏并解决了可扩展性问题,测试结果表明该 AI 在王者荣耀等游戏中已能击败顶尖电竞选手。
- IJCAI双重策略蒸馏
本文提出了一种双学习者的框架,名为双重策略蒸馏(DPD),其中两个学习者在同一环境中运行,以探索环境的不同方面并相互提取知识以增强他们的学习,并对几个连续控制任务进行实验,表明该框架可以在没有使用昂贵的教师模型的情况下,在具有学习基础的代理 - DisCoRL: 基于策略蒸馏的连续强化学习
本文提出了 DisCoRL 方法,该方法结合状态表示学习和策略蒸馏来解决多任务强化学习中的挑战,并在三个 2D 导航任务上进行了实验验证。
- ICML使用策略蒸馏和 Sim2Real 传输在现实中部署的连续强化学习
研究如何训练一个机器人能够在一个连续的学习情境中解决所有遇到的任务,而不会忘记以前的任务。研究采用强化学习算法,应用于三轮全向机器人的 2D 导航任务,通过状态表征学习和策略蒸馏的方法,提高算法的样本效率与任务综合性能。
- 基于文本游戏的语言扩展
本文探讨了使用基于深度强化学习的代理人在多个基于文本的游戏中进行学习,并通过策略蒸馏方法扩展其词汇,并将文本游戏用作测试平台以更详细地分析和理解策略蒸馏方法的应用。
- 深度强化学习启动
该论文介绍了一种利用已经训练好的 ' 教师 ' 智能体来启动新的 ' 学生 ' 智能体训练的方法,从而提高新智能体的数据效率,并且可以让单个学生智能体利用多个专门从事不同任务的 ' 专家 ' 教师,获取更好的性能表现。
- 多技能动作控制的渐进式蒸馏强化学习
本文研究在连续控制问题中如何将多个专项技能的策略组合在一起,为了解决这个问题作者扩展了策略蒸馏方法并通过模拟双足步态跨越不同类地形的领域中评估了该技术,同时还引入了一种输入注入方法来利用新的输入特征,最后,作者使用迁移学习来协助高效地获得新 - 基于模型的离散和连续行动规划
本文介绍了一种使用前向模型的行动计划方法,在离散动作空间中通过反向传播实现规划,使用参数化的动作向量和输入噪声,同时使用策略蒸馏方法,性能优于模型自由 RL 和离散计划方法,可以应用于离散和连续动作空间的模型控制任务。
- ICLR策略蒸馏
本文介绍了一种称为 Policy Distillation 的新方法,它可以从强化学习代理中提取策略并训练出一个性能表现优异的、更小而且更高效的网络。同时,这种方法还可以将多个任务特定策略合并为一个策略并应用到 Atari 游戏中,在实验中