Mar, 2023

基于不确定性感知的强化学习,用于人在循环机器人代理的决策制定

TL;DR本文介绍一种基于强化学习的半自主智能体,当其对任务成功的信心较低时,通过估计当前状态回报的方差来请求外部帮助,该方法在离线训练期间没有访问专家,并在多个离散导航问题中有效利用有限的专家调用预算。