Aug, 2020

一种适用于强化学习任务的组合规格语言

TL;DR提出一种用于规定复杂控制任务的语言并实现在工具SPECTRL中的算法,可以将任务规定编译为奖励函数并自动进行奖励形状。