Oct, 2024

利用预训练基础模型促进强化学习中的内在动机

TL;DR本研究解决了强化学习中探索不足的问题,特别是在外部奖励稀少或缺失的环境中。通过利用预训练的基础模型,该研究提出了一种新颖的方法,强调发掘情节新颖性项在提高代理探索有效性方面的重要作用。实验结果表明,完整状态信息的内在模块显著提高了样本效率,并加速了学习过程,显示出基础模型的嵌入效果优于代理在训练期间构建的嵌入。