Jul, 2020

预测信息加速强化学习

TL;DR本文通过使用有监督训练的压缩表示学习了强化学习环境动态的预测信息,通过提高样本效率使得 Soft Actor-Critic 代理人可以大幅度地改善在连续控制任务中的表现。