Nov, 2022

强化学习中用于语义新颖性的基础模型

TL;DR本文提出了一种基于 CLIP 的内在奖励,该奖励可以驱动强化学习任务中的探索,进而帮助学习者实现对世界的语义理解与认知,实验表明该方法在处理稀疏奖励、复杂的过程生成任务上比现有方法表现更优异。