BriefGPT.xyz
Ask
alpha
关键词
linear gaussian models
搜索结果 - 1
基于 Bandit 反馈的多任务离线学习
提出针对多个类似问题的层次图模型,用基于带环反馈的上下文离线策略优化解决问题,提出 HierOPO 算法并通过线性高斯模型实现,在模型、理论和实证数据上比单独解决每个任务有优势。
PDF
2 years ago
Prev
Next