Jun, 2023

了解反馈在在线学习中转换成本中的作用

TL;DR本文主要研究反馈在在线学习中的作用以及它对遗憾的影响,特别是在bandit学习中,我们充分表征了不同反馈类型下的minimax遗憾,并设计了算法框架以实现匹配上限。