Jul, 2023

目标的脚印:从人-环交互反馈中获得目标条件的探索

TL;DR通过非专业用户提供的低质量、非同步和嘈杂的反馈,人类引导探索(HuGE)技术在强化学习中引导探索,无需精心设计奖励规范。这种方法通过分叉人类反馈和策略学习来实现:人类反馈引导探索,而来自探索数据的自我监督学习产生无偏的策略。HuGE能够借助非专业用户的众包反馈在模拟环境中学习各种具有挑战性的多阶段机器人导航和操纵任务。此外,这个方法还可以通过来自人类监督员的偶尔异步反馈来直接在真实世界中学习。