Jul, 2017

无须试错:通过人类干预实现安全强化学习

TL;DR通过引入人类监督和一个受过训练的学习器,当前的无模型强化学习可以避免所有的监管灾难性问题,但在更复杂的任务上其效果有限,需要进行进一步改进。