Jul, 2022

深度策略的目标条件生成器

TL;DR研究探讨了目标条件强化学习,使用上下文命令生成生成深度神经网络策略的权重矩阵的目标条件神经网络,并使用超网络和策略嵌入来扩展该方法以生成深层神经网络。通过实验证明,单个生成的策略生成器可以产生在训练过程中观察到的任何回报的策略,并且该算法在一组连续控制任务中表现出有竞争力的性能。