Apr, 2024

单任务持续离线强化学习

TL;DR本研究提出了一种新的算法,名为基于经验回放的集成离线强化学习,通过引入多个值网络来学习相同的数据集,并通过值网络的离散程度判断策略是否已经学习,以提高单任务离线强化学习网络的性能。