Oct, 2022

EUCLID: 多项式动态模型的高效无监督强化学习

TL;DR提出一种高效的无监督强化学习框架(EUCLID),其中引入了一种新颖的模型融合范式,在预训练阶段共同预训练动力学模型和无监督探索策略,从而更好地利用环境样本,提高下游任务的抽样效率,并在操纵和运动领域的实验结果中表现出高样本效率的最先进性,基本解决了基于状态的URLB基准问题,并达到了100k微调步数下State-of-the-Art的性能,相当于DDPG的20倍数据交互步数的性能。