Sep, 2023

强化学习的对比初始状态缓冲器

TL;DR强化学习中,探索和利用之间的权衡对于从有限样本中实现有效学习提出了复杂的挑战。我们引入了对比初始状态缓冲区的概念,独立于底层的强化学习算法,选择过去的经验中的状态并使用它们来初始化环境中的智能体,以引导它朝着更有信息量的状态发展。实验结果表明,我们的初始状态缓冲区在任务性能方面超过了基准线,同时还加速了训练收敛。