Feb, 2022

简单后悔最小化的元学习

TL;DR一个meta-learning框架有效的解决了bandit任务中的regret minimization问题,提出了贝叶斯和频率主义算法,评估了不同的环境。