多类别 PAC 型强盗分类的快速速率

Jun, 2024

多类别 PAC 型强盗分类的快速速率

Fast Rates for Bandit PAC Multiclass Classification

Liad Erez, Alon Cohen, Tomer Koren, Yishay Mansour, Shay Moran

TL;DR我们研究了具有强化学习反馈的多分类 PAC 学习问题，提出了一种新颖的学习算法将样本复杂度降低到 O ((poly (K) + 1/ε²) log (|H|/δ))，改进了现有问题的边界，同时在一般类别情况下也得到了类似的样本复杂度边界，算法利用随机优化技术通过 Frank-Wolfe 更新计算低方差探索分布。

Abstract

We study multiclass pac learning with bandit feedback, where inputs are classified into one of $K$ possible labels and feedback is limited to whether or not the predicted labels are correct. Our main contribution

multiclass pac learning bandit feedback sample complexity agnostic pac learning stochastic optimization

发现论文，激发创造

多类别分类中的强盗信息真实价格

经作者研究，本论文主要探讨基于强化学习反馈的多类别分类问题，特别关注类别数量 K 对于 T 步的后悔度上界是否能够超过现有算法的√(KT) 依赖性，作者提出了一种新的分类算法以获得对于适度大小的假设类别集合维度的后悔度结果 O (|H|+√(T))，并证明了理论上限范围内（除去对数项）上界的紧密性。

May, 2024

上下文赌博机的最优 PAC 算法

本文研究了 $(\epsilon,\delta)-\textit {PAC}$ 场景下的随机赌博机问题，给出了上下界，并提供了一个新的基于 argmax Oracle 的实例最优和计算效率高的算法。

Jul, 2022

在线多类别分类的强化学习反馈算法：变体和权衡

多类分类中，我们研究了在对抗性在线环境中依赖强化学习反馈与完全信息之间的差异对最佳错误界限的影响，提供了几乎严格的答案。我们还研究了随机化学习者与确定性学习者之间以及适应性对手与无意识对手之间在强化学习反馈环境下的差距，并与完全信息场景进行了对比。此外，我们的结果表明，在某些情况下，最佳随机化错误界限接近于其确定性对应界限的平方根。

Feb, 2024

在 Plackett-Luce 模型中应对 Bandits 问题的 PAC 方法

该研究引入了 PAC Battling-Bandit 问题，通过 Plackett-Luce 子集选择模型在在线学习框架中寻找高置信度的最佳物品，对不同反馈模型下的样本复杂度进行研究，发现利用排名顺序反馈可以从统计效率上提高样本复杂度。

Aug, 2018

无限臂老虎机渐进最优纯探索

本文研究了纯探索问题中具有无限多臂的赌博机问题，针对固定置信和固定预算两种情形，提出了两种算法，分别以最小的期望和固定样本复杂度为目标，最终准确选择一个高质量臂，使其平均奖励与前 $η$ 的部分的奖励最大值的差别小于 $ε$，并给出了理论证明。

Jun, 2023

非均匀收敛下的最优 PAC 上界

本研究提出一种新的框架，超越了传统统一收敛方法的限制，将排列不变预测器的交叉检验误差转化为高概率风险界，并通过 Haussler, Littlestone, 和 Warmuth 的一种算法在二元分类中实现了最优 PAC 界限。在多类分类、部分假设分类和实现有限的回归等三种不同场合中，我们证明了该框架的优越性能。

Apr, 2023

自适应多臂识别

研究了如何在随机赌博机游戏中选择期望回报最高的 K 个赌臂问题，提出了一种基于概率近似正确算法，并引入了难度参数来量化问题难度。通过研究两种算法的采样复杂度，得出了更优的上界，并证明了该上界在某些情况下是紧的。同时得出了引入难度参数的实例相关算法需要额外的对数因子作为代价的下界。

Jun, 2017

具有子集评价偏好的主动排名

本研究旨在通过自适应挑选子集并收集偏好反馈，在 Plackett-Luce 模型下解决 PAC 排名问题，提出了新的 pivot trick 技巧，从而实现了在一定概率下识别 n 个项目的 ε- 最优排名，（m-1）/m 降低的样本复杂度和对称排名算法的阶无法提高的。

Oct, 2018

混合物的高效样本学习

提出了一种基于混合学习算法的 PAC 学习方法，该算法可用于密度估计中的概率分布，其中包含了学习概率分布，学习混合分布等，其中混合分布包括轴向高斯混合分布，高斯混合分布和对数凹分布。

Jun, 2017

多分布学习的样本复杂度

这篇论文研究多分布学习，给出了一个样本复杂度为 $\widetilde {O}((d+k)\epsilon^{-2}) \cdot (k/\epsilon)^{o (1)}$ 的算法，解决了 COLT 2023 的开放问题。

Dec, 2023