TWIST: 教师 - 学生世界模型蒸馏用于高效的模拟到真实转化

Nov, 2023

TWIST: 教师 - 学生世界模型蒸馏用于高效的模拟到真实转化

TWIST: Teacher-Student World Model Distillation for Efficient Sim-to-Real Transfer

Jun Yamada, Marc Rigter, Jack Collins, Ingmar Posner

TL;DR使用仿真注入的图像观测作为特权信息，通过教师 - 学生模型蒸馏，本文提出了 TWIST 方法，在基于模型的强化学习任务中实现高效的仿真到实际转移，并在仿真和实际机器人任务中表现出更高的样本效率和任务性能。

Abstract

model-based rl is a promising approach for real-world robotics due to its improved sample efficiency and generalization capabilities compared to model-free RL. However, effective model-based rl solutions for

model-based rl sim-to-real transfer vision-based twist world model

发现论文，激发创造

学习教学：提高师生学习中的样本效率，用于模拟到真实场景的迁移

模拟到现实的迁移是机器人学习的一个基本问题，本文提出了一种学习框架，通过引入师生学习范式和样本高效性，解决了培训中噪声观测造成的困难，实现了模拟环境下机器人的高性能表现。

Feb, 2024

基于世界模型的视觉导航的 Sim2Real 迁移

一种使用 Bird's Eye View 图像作为中间表示的系统，在模拟器中训练并能够通过零样本转移到真实世界，在真实世界环境中通过 Anchor 图像和混合密度 LSTM 增强鲁棒性，通过 Differential drive 机器人在 CARLA 模拟器中的训练和部署证明了该方法的有效性，并公开了相关代码、数据集和模型。

Oct, 2023

生成对抗模拟器

在强化学习中，我们提出了一种无模拟器知识蒸馏的方法，通过重新初始化数据生成器，利用对抗损失来显式地处理每个输出类的多个观察值，以找到尽可能多的实例，从而改进了现有技术在 MNIST、Fashion-MNIST、CIFAR-10 等基准数据集上的学习情况，同时具体解决了涉及多输入模式时的问题。

Nov, 2020

递归蒸馏用于开放集分布式机器人定位

提出了一种适用于开放式分布式机器人系统的新型训练方案，通过在未知地点遇到的其他机器人的协助下，构建伪训练数据集并用于学生模型的持续学习，在处理各种类型的开放式教师时只引入了最少的假设，包括不合作、无法训练（例如图像检索引擎）或黑盒教师（即数据隐私）。通过使用具有挑战性的无数据递归蒸馏场景中的排名函数作为实例，研究了这种通用模型，其中经过训练的学生可以递归地加入下一代开放教师集合。

Dec, 2023

域随机化：从仿真到真实世界的深度神经网络转移

探究了一种称为 “Domain Randomization” 的技术，该技术使用非真实随机纹理来训练深度神经网络对象定位器，使得该定位器在真实环境中表现出色，并且可以应用于机器人控制中。

Mar, 2017

机器人操作任务的多摄像头视角到单摄像头视角知识蒸馏的视觉策略学习

本文提出了一种通过知识蒸馏和数据增强强化单摄像头视角下机器人操作任务的强化学习算法的方法，在模拟和现实环境下进行了实验验证并取得了良好效果。

Mar, 2023

通过任务蒸馏进行领域适应

使用图像识别数据集作为源域和目标域之间的桥梁，通过任务蒸馏框架，在不同仿真器之间成功地传输导航策略，并在传统领域适应基准上展现出有前途的结果。

Aug, 2020

特权知识蒸馏用于模拟到真实策略泛化

本文提出了一种称为历史信息瓶颈 (HIB) 的新型单阶段特权知识蒸馏方法，通过从历史轨迹中捕捉潜在的可变动态信息来学习特权知识表示，以弥合仿真与现实之间的差距，并证明该方法比现有方法具有更好的普适性。

May, 2023

SoTeacher: 面向学生的教师网络训练框架用于知识蒸馏

提出一种基于学生的教师网络训练框架 SoTeacher，通过引入 Lipschitz 正则化和一致性正则化改善知识蒸馏算法中教师网络的训练方法，实验证明该方法适用于几乎所有的教师 - 学生架构对，并且可以显著、一致地提高学生的性能。

Jun, 2022

使用策略蒸馏和 Sim2Real 传输在现实中部署的连续强化学习

研究如何训练一个机器人能够在一个连续的学习情境中解决所有遇到的任务，而不会忘记以前的任务。研究采用强化学习算法，应用于三轮全向机器人的 2D 导航任务，通过状态表征学习和策略蒸馏的方法，提高算法的样本效率与任务综合性能。

Jun, 2019