Feb, 2021

使用典型表示的强化学习

TL;DRProto-RL 是一种基于自我监督的框架,将表示学习与探索相结合,通过原型表示来实现,从而解决了强化学习中表示学习与探索之间的挑战,并在不带下游任务信息的环境中预训练这些任务无关的表示和原型,实现了一组困难的连续控制任务的最新下游策略学习。