Dec, 2022

流量控制:无损原始发现的离线强化学习

TL;DR本研究提出了一种以基本技能表示为流的离线层次学习方法,重点在于保证基本技能的表达能力,从而恢复整个策略空间,实验结果表明,该方法在大多数任务中取得了优异的性能表现。