Jun, 2024

多类别 PAC 型强盗分类的快速速率

TL;DR我们研究了具有强化学习反馈的多分类 PAC 学习问题,提出了一种新颖的学习算法将样本复杂度降低到 O ((poly (K) + 1/ε²) log (|H|/δ)),改进了现有问题的边界,同时在一般类别情况下也得到了类似的样本复杂度边界,算法利用随机优化技术通过 Frank-Wolfe 更新计算低方差探索分布。