May, 2020

截断连续分布分位数评论家混合来控制高估偏差

TL;DR本文探讨了一个新方法,通过分布式表示、截断和多评估器的集成,有助于减轻连续控制环境下的高估偏差,并在连续控制基准测试套件中获得了良好的成绩。