May, 2017

重复逆强化学习

TL;DR介绍了一种新颖的反向强化学习问题:代理人必须代表人类执行一系列任务,并希望在行动不符合人类期望时最小化惊讶人类的任务数量,每当人类感到惊讶,代理人会提供人类所期望的行为演示。