ICMLNov, 2020

反向受限强化学习

TL;DR研究使用强化学习智能体从行为演示中学习约束以及将其迁移到具有不同形态和奖励功能的新智能体的方法,建立了能够在高维度完全无模型的情况下学习任意 Markovian 约束的框架,并且该方法与之前的工作相比,在离散设置、特定类型约束和环境转移动力学等方面表现更好。