May, 2023

强化学习的潜在探索

TL;DR提出了 LATent TIme-Correlated Exploration (Lattice) 方法,用于在策略网络的潜在状态中注入时间上相关噪声,以优化高维输入到输出的复杂的运动控制任务中的策略学习,证明了有结构的动作噪声在时间和执行器空间上的有效性。