Apr, 2024

基于强化学习的软体机械手控制器的持续策略蒸馏

TL;DR通过引入 Continual Policy Distillation(CPD)框架,该研究介绍了一种实现多功能控制器的方法,以用于四指软抓手对不同形状和大小的物体进行旋转操作的柔性机器人手。该框架利用策略蒸馏(PD)从专家策略向不断发展的学生策略网络传递知识,并集成样本回放方法以增强泛化能力和避免灾难性遗忘。研究结果表明,CPD 框架在整合多个专家知识和实现多功能自适应手部操作任务方面具有较好的性能。