Oct, 2022

在少数无奖励部署中学习通用世界模型

TL;DR在深度强化学习中,为了建立通用型智能体,需要实现两个关键的条件:探索是任务无关的,探索策略能够在无需重新训练的情况下收集大量数据。本文提出了一种新的强化学习范式 —— 无奖励部署效率设置,并在此基础上介绍了 CASCADE 算法,通过一种信息论的目标函数设计,最大化智能体群体采样轨迹的多样性,收集通用 - 无任务限制数据集,学习世界模型,并实现了零样本泛化到 Atari,MiniGrid,Crafter 和 DM Control Suite 等新型任务。