policy-dependent feedback | BriefGPT

关键词policy-dependent feedback

搜索结果 - 1

基于策略相关人类反馈的交互式学习
本文研究了利用正反馈进行与人类互动学习行为的问题，并提出了一种名为 “COACH” 的算法来解决在此过程中发现的问题，该算法能成功地在实体机器人上学习多种行为。
PDF7 years ago