Jun, 2024

在线强盗学习伴随离线偏好数据

TL;DR采用有限臂线性赌博机模型作为在线学习的典型模型,通过建模生成数据的专家的能力,我们提出 warmPref-PS 算法,利用带有噪声偏好反馈的离线数据集实现在线学习,并在理论和实证评估中得到支持。