Oct, 2022

终身赌徒优化:无先验和无遗憾

TL;DR本文提出 LIBO 算法通过元学习逐步逼近真实核函数以解决序列化 Bandit 优化任务,可配合线性或基于核函数的 Bandit 算法实现次线性的令人满意的性能,文章同时介绍了以联邦学习方式解决序列化 Bandit 优化任务的 F-LIBO 算法。