Dec, 2022

基于 Bandit 反馈的多任务离线学习

TL;DR提出针对多个类似问题的层次图模型,用基于带环反馈的上下文离线策略优化解决问题,提出 HierOPO 算法并通过线性高斯模型实现,在模型、理论和实证数据上比单独解决每个任务有优势。