Oct, 2023

深度强化学习的多元先验

TL;DR在强化学习中,代理人旨在最大化累积奖励,面临利用现有知识获取奖励或寻求潜在更高奖励的开发与探索困境。我们引入了一种创新方法,通过精心设计的先验 NNs,在强化学习的初始值函数中引入最大多样性,以解决常规集成型不确定性估计的问题。相比于随机先验方法,我们的方法在解决经典控制问题和一般性探索任务中表现出优越的性能,显著提高样本效率。