Mar, 2024

在线根据离线偏好进行政策学习

TL;DR通过整合离线偏好和虚拟偏好,将离线数据和学习代理的行为进行比较,从而加强了基于偏好的强化学习中的奖励函数对代理行为的指导,提高了其泛化能力。