Oct, 2023

通过最优策略拟合进行连续学习的人类偏好

TL;DR继续优化策略拟合(COPF)是一种通过蒙特卡洛方法估计最优策略序列,并不断使用函数正则化拟合策略的新方法,与传统强化学习相比,COPF 在不同任务和领域中与人类偏好的一致性方面表现更好,同时又具备从无标签数据中学习的能力,使其在连续偏好学习方面具有灵活性。