Dec, 2023

离线元强化学习中的通用任务表示学习与数据限制

TL;DRGENTLE是一种用于解决在有限数据条件下学习可推广任务表征的新算法,它利用Task Auto-Encoder通过重构状态转换和奖励来捕捉任务模型的生成结构,并通过构造伪转换来缓解行为多样性有限的影响。实证结果表明,在分布内和分布外任务上,GENTLE方法在给定上下文协议和一次性协议下明显优于现有的离线元强化学习方法。