ICLRJun, 2017

参数空间噪声用于探索

TL;DR通过将参数噪声与传统深度强化学习方法相结合,可以在高维离散行动环境和连续控制任务中比传统深度强化学习方法和进化策略更有效地学习,并且在离散和连续领域中参数噪声会比动作空间噪声更优秀。