Nov, 2022

离散阶乘表示作为目标条件强化学习的抽象

TL;DR提出了一种称为 DGRL 的方法,该方法通过学习目标的阶乘表示,并通过离散化瓶颈进行处理,以更粗略的目标规范来解决在噪声和高维度输入空间中定义目标的挑战;实验证明应用离散化瓶颈可以提高目标条件下的 RL 设置的性能。