Apr, 2019

强化学习算法的统计比较指南

TL;DR本文介绍了一份关于如何严格比较增强学习算法的指南,包括介绍了统计测试的概念、审查相关的统计测试以及比较它们在不同的样本量和效果量下的假阳性率和统计功效。除了通过模拟比较不同测试之外,我们还在 Half-Cheetah 上比较了 Soft-Actor Critic 和 Twin-Delayed Deep Deterministic Policy Gradient 算法的表现,并提供了指南和代码以进行 RL 算法性能的严格比较。