Mar, 2023

离线强化学习与人类反馈的部署

TL;DR提出一种基于人类监督的强化学习在线部署框架,包含两种方法:一是通过模型选择和上置信区间算法自适应选择候选离线强化学习模型进行部署,二是在监督信号到达时在线微调模型。通过实证验证,这些方法有效地应用于机器人运动控制和交通信号控制任务中。