Jul, 2023

元学习对抗强盗算法

TL;DR该论文研究了具有 bandit feedback 的在线元学习,目的是通过某种自然的相似性度量改善类似的多个任务的性能。