Feb, 2021

Reverb:一种经验回放框架

TL;DR介绍了一种用于强化学习中经验重演的高效、可扩展、易于使用的系统Reverb,该系统的设计旨在适用于具有成千上万个并发客户端的分布式配置,并提供经验重演的核心设计和性能特征的实证结果。