Jul, 2022
深度策略的目标条件生成器
Goal-Conditioned Generators of Deep Policies
Francesco Faccio, Vincent Herrmann, Aditya Ramesh, Louis Kirsch, Jürgen Schmidhuber
TL;DR研究探讨了目标条件强化学习,使用上下文命令生成生成深度神经网络策略的权重矩阵的目标条件神经网络,并使用超网络和策略嵌入来扩展该方法以生成深层神经网络。通过实验证明,单个生成的策略生成器可以产生在训练过程中观察到的任何回报的策略,并且该算法在一组连续控制任务中表现出有竞争力的性能。