Nov, 2019

行为规范化的离线强化学习

TL;DR该研究针对强化学习中现实世界应用的局限性,提出了一种 BRAC 的方法,并通过多个离线 RL 任务的实验,发现许多技术上的复杂性是不必要的。