Oct, 2023
通过最优策略拟合进行连续学习的人类偏好
COPF: Continual Learning Human Preference through Optimal Policy Fitting
Han Zhang, Lin Gui, Yuanzhao Zhai, Hui Wang, Yu Lei...
TL;DR继续优化策略拟合(COPF)是一种通过蒙特卡洛方法估计最优策略序列,并不断使用函数正则化拟合策略的新方法,与传统强化学习相比,COPF 在不同任务和领域中与人类偏好的一致性方面表现更好,同时又具备从无标签数据中学习的能力,使其在连续偏好学习方面具有灵活性。