基于距离的分类器的 PAC-Bayesian 分析:最近邻为什么有效!
通过简单修改最近邻分类器,我们展示了一个强 Bayes 一致的学习器,优于 k-NN 分类器,并在限制样本大小和算法时间方面具有较大的优势,获得了令人鼓舞的实验结果。
Jul, 2014
本文研究了一个基于样本压缩界限的多类学习算法的贝叶斯一致性,并证明了在度量空间有限两倍维度的情况下,该算法是强贝叶斯一致的,甚至在某些无限维情况下也是连贯的,这是一项有趣的发现,当前存在几个值得研究的问题。
May, 2017
该研究探讨了基于数据相关分布的随机预测模型在训练后的泛化能力以及基于 PAC-Bayes 分析的上界推导方法,同时研究了使用数据相关先验分布的应用,包括针对无界方差的损失函数的一种新颖的边界推导方法。
Jun, 2020
研究使用局部 -$k$- 最近邻分类器的全局超额风险的渐近展开式,通过此理论发现半监督学习问题中的局部选择 $k$ 能够实现额外风险的收敛速率,同时通过模拟研究验证了该理论。
Apr, 2017
本文针对分类器的测试攻击问题,引入了一种理论框架,类似于偏差 - 方差理论,并使用该框架对一种典型的非参数分类器 - k 最近邻分类器的鲁棒性进行了分析,并提出了一种新的修改的 1 最近邻分类器,其在大样本极限下具有良好的鲁棒性。
Jun, 2017
本论文研究使用替代距离的最近邻分类器(k-NN)算法,并探讨了基于一系列随机范数或基于一些特定的一致性条件的距离,并探究了对类别标签的自适应选择距离的两阶段 k-NN 分类器。
Nov, 2015
该论文提出了一种改进的 K 近邻分类器,它可以自适应地为每个查询选择 K,该选择取决于每个邻域的属性,因此可能在不同点之间显着变化,并且可以利用条件概率推导推导出一些收敛界限。
May, 2019
本文通过渐近分析导出了带权最近邻分类器超额风险(遗憾)的渐近展开式,并找到了非负权重的渐近最优向量,表明该分类器的遗憾与未加权的 k - 最近邻分类器相比,仅与特征向量的维度有关。同时,在更大的维度上,权重最优。最后,我们还证明,当允许使用负权重时,强平滑假设是可能提高收敛速度的。本文的结果得到了在模拟数据和真实数据集上的实证对比支持。
Jan, 2011
本研究提出 Bayesian 非参数核学习(BaNK),是一种针对扩展核学习,且基于贝叶斯框架和非参数的数据驱动框架,通过对随机频率的谱分布设置非参数先验实现对于大规模数据的分类和回归任务的可扩展高效处理。实验表明,在各种真实世界数据集上,与多种可扩展内核学习方法相比,BaNK 具有更高的性能表现。
Jun, 2015
本文提出了 Local Naive Bayes Nearest Neighbor 方法,以提高图像分类算法的准确性和拓展性,该方法将所有参考数据合并成一个搜索结构进行快速搜索,并证明此方法可在 Caltech 256 数据集上带来 100 倍的速度提升。同时,也将 NBNN 与空间金字塔方法进行了头对头比较。本文发现,Local NBNN 方法表现优于以往的 NBNN 方法和原始空间金字塔模型,但仍不及使用本地软分配和 max-pooling 的最先进空间金字塔方法。
Dec, 2011