BriefGPT.xyz
Ask
alpha
关键词
policy-dependent feedback
搜索结果 - 1
基于策略相关人类反馈的交互式学习
本文研究了利用正反馈进行与人类互动学习行为的问题,并提出了一种名为 “COACH” 的算法来解决在此过程中发现的问题,该算法能成功地在实体机器人上学习多种行为。
PDF
7 years ago
Prev
Next