Dec, 2023

利用好奇心在连续离线强化学习中实现任务均衡表示

TL;DR研究通过使用好奇心重播缓冲区的方法,改进离线多任务连续强化学习,当任务由环境中的非稳定性定义时,这些任务在时间上不是标记的且不均匀地展示给学习者。