该论文提出了一种改进的 K 近邻分类器,它可以自适应地为每个查询选择 K,该选择取决于每个邻域的属性,因此可能在不同点之间显着变化,并且可以利用条件概率推导推导出一些收敛界限。
May, 2019
研究使用局部 -$k$- 最近邻分类器的全局超额风险的渐近展开式,通过此理论发现半监督学习问题中的局部选择 $k$ 能够实现额外风险的收敛速率,同时通过模拟研究验证了该理论。
Apr, 2017
本文介绍了一种基于稀疏先验的 PAC-Bayesian 限制方法,将 K 最近邻分类器转化为核空间框架以求得其广义误差的界限,并在实验中证明了其高效性。
Sep, 2021
通过研究在随机噪声情况下的 k - 最近邻(k-NN)一致性,提出了一种鲁棒的 k-NN 方法 (RkNN),在处理噪声标签时具有一定的纠错和分类能力。
Jul, 2016
本文提出了一种简单的,能够使权重最优化的局部加权回归 / 分类方法,并能够为需要估计值的每个数据点高效地找到权重和最优化的邻居数量,从而在多个数据集上展示了比标准局部加权方法更优异的性能表现。
Jan, 2017
使用信息论的观点提出了一种稳健且可解释的框架,利用单个模型来进行分类、回归和异常检测任务,该框架能够在性能上与最先进的方法持平或超过,并通过提供新的数据和预测特征的概念来增强解释性。
Nov, 2023
本文针对分类器的测试攻击问题,引入了一种理论框架,类似于偏差 - 方差理论,并使用该框架对一种典型的非参数分类器 - k 最近邻分类器的鲁棒性进行了分析,并提出了一种新的修改的 1 最近邻分类器,其在大样本极限下具有良好的鲁棒性。
Jun, 2017
使用近邻法分类时间序列的理论依据是,许多应用场景下实际上原型时间序列相对于我们可以访问的时间序列数量非常少;作者提出了一种基于潜在源模型的分类规则,并在合成数据上验证了加权多数投票与近邻分类的同等正确分类率。通过这种方法,在 Twitter 上可以提前 1 小时 26 分钟实现 95% 的 “趋势话题” 检测。
Feb, 2013
本文研究了基于 $KSG$ 估计的互信息估计中,样本数对偏差收敛速度的影响,发现了 $KSG$ 估计器的优越性能来源于 “相关性提升” 效应,并通过改进 $KSG$ 估计器构建出更优秀的估计器。
Apr, 2016
本文提出了一种改进的 kNN 算法,针对文本分类中常见的类别样本分布不均衡问题,使用不同的邻居数来分类。在文本分类实验中,相比传统方法,该方法对参数 k 的敏感度更低,能够更好地识别属于小类的文档。
Jun, 2003