Feb, 2024
在线多类别分类的强化学习反馈算法:变体和权衡
Bandit-Feedback Online Multiclass Classification: Variants and Tradeoffs
TL;DR多类分类中,我们研究了在对抗性在线环境中依赖强化学习反馈与完全信息之间的差异对最佳错误界限的影响,提供了几乎严格的答案。我们还研究了随机化学习者与确定性学习者之间以及适应性对手与无意识对手之间在强化学习反馈环境下的差距,并与完全信息场景进行了对比。此外,我们的结果表明,在某些情况下,最佳随机化错误界限接近于其确定性对应界限的平方根。