AAAIFeb, 2022

异构演示中终身学习的策略探索与混合

TL;DR本文提出了一种基于 Learning from Demonstration (LfD) 框架的新算法 Dynamic Multi-Strategy Reward Distillation (DMSRD),通过提取不同人给出的演示中的共同知识,构建混合策略以实现个性化和高效的机器人学习,实验结果表明,该算法表现出了明显的优越性。