TWIST: 教师 - 学生世界模型蒸馏用于高效的模拟到真实转化
模拟到现实的迁移是机器人学习的一个基本问题,本文提出了一种学习框架,通过引入师生学习范式和样本高效性,解决了培训中噪声观测造成的困难,实现了模拟环境下机器人的高性能表现。
Feb, 2024
一种使用 Bird's Eye View 图像作为中间表示的系统,在模拟器中训练并能够通过零样本转移到真实世界,在真实世界环境中通过 Anchor 图像和混合密度 LSTM 增强鲁棒性,通过 Differential drive 机器人在 CARLA 模拟器中的训练和部署证明了该方法的有效性,并公开了相关代码、数据集和模型。
Oct, 2023
在强化学习中,我们提出了一种无模拟器知识蒸馏的方法,通过重新初始化数据生成器,利用对抗损失来显式地处理每个输出类的多个观察值,以找到尽可能多的实例,从而改进了现有技术在 MNIST、Fashion-MNIST、CIFAR-10 等基准数据集上的学习情况,同时具体解决了涉及多输入模式时的问题。
Nov, 2020
提出了一种适用于开放式分布式机器人系统的新型训练方案,通过在未知地点遇到的其他机器人的协助下,构建伪训练数据集并用于学生模型的持续学习,在处理各种类型的开放式教师时只引入了最少的假设,包括不合作、无法训练(例如图像检索引擎)或黑盒教师(即数据隐私)。通过使用具有挑战性的无数据递归蒸馏场景中的排名函数作为实例,研究了这种通用模型,其中经过训练的学生可以递归地加入下一代开放教师集合。
Dec, 2023
探究了一种称为 “Domain Randomization” 的技术,该技术使用非真实随机纹理来训练深度神经网络对象定位器,使得该定位器在真实环境中表现出色,并且可以应用于机器人控制中。
Mar, 2017
本文提出了一种通过知识蒸馏和数据增强强化单摄像头视角下机器人操作任务的强化学习算法的方法,在模拟和现实环境下进行了实验验证并取得了良好效果。
Mar, 2023
本文提出了一种称为历史信息瓶颈 (HIB) 的新型单阶段特权知识蒸馏方法,通过从历史轨迹中捕捉潜在的可变动态信息来学习特权知识表示,以弥合仿真与现实之间的差距,并证明该方法比现有方法具有更好的普适性。
May, 2023
提出一种基于学生的教师网络训练框架 SoTeacher,通过引入 Lipschitz 正则化和一致性正则化改善知识蒸馏算法中教师网络的训练方法,实验证明该方法适用于几乎所有的教师 - 学生架构对,并且可以显著、一致地提高学生的性能。
Jun, 2022
研究如何训练一个机器人能够在一个连续的学习情境中解决所有遇到的任务,而不会忘记以前的任务。研究采用强化学习算法,应用于三轮全向机器人的 2D 导航任务,通过状态表征学习和策略蒸馏的方法,提高算法的样本效率与任务综合性能。
Jun, 2019