Jan, 2017

基于策略相关人类反馈的交互式学习

TL;DR本文研究了利用正反馈进行与人类互动学习行为的问题,并提出了一种名为 “COACH” 的算法来解决在此过程中发现的问题,该算法能成功地在实体机器人上学习多种行为。