May, 2020
截断连续分布分位数评论家混合来控制高估偏差
Controlling Overestimation Bias with Truncated Mixture of Continuous Distributional Quantile Critics
Arsenii Kuznetsov, Pavel Shvechikov, Alexander Grishin, Dmitry Vetrov
TL;DR本文探讨了一个新方法,通过分布式表示、截断和多评估器的集成,有助于减轻连续控制环境下的高估偏差,并在连续控制基准测试套件中获得了良好的成绩。