Oct, 2017

无梯度策略架构搜索与自适应

TL;DR通过梯度自由优化实现政策体系结构搜索和适应,可以学习执行自主驾驶任务。通过从演示和环境奖励中学习,开发了一个模型,可以学习相对较少的早期灾难性失败,并学习适当复杂度的体系结构,调整源领域中演示的政策以适应目标环境中获得的奖励,在逼真的模拟环境中学习驾驶,以提供比基线方法更安全的学习,降低累计崩溃指标。