Apr, 2024

迈向多形态具有差异性和知识蒸馏的控制器

TL;DR通过使用 Quality Diversity 算法构建多个单任务 / 单形态的教师控制器的数据集,然后通过监督学习将这些多样化控制器提炼成一个能够在多种不同机体中表现良好的单一多形态控制器,本文提出了一种解决学习单一控制器控制多种形态的挑战的流程。这种提炼控制器的方法在教师控制器的知识展现方面是独立的,使得我们能够将教师的知识提炼到任何控制模型中,使我们的方法与架构改进和现有的教师控制器训练算法具有协同效应。