BriefGPT.xyz
Ask
alpha
关键词
policy architecture search
搜索结果 - 1
无梯度策略架构搜索与自适应
通过梯度自由优化实现政策体系结构搜索和适应,可以学习执行自主驾驶任务。通过从演示和环境奖励中学习,开发了一个模型,可以学习相对较少的早期灾难性失败,并学习适当复杂度的体系结构,调整源领域中演示的政策以适应目标环境中获得的奖励,在逼真的模拟环
→
PDF
7 years ago
Prev
Next