加权距离最近邻样本压缩
本文研究了一个基于样本压缩界限的多类学习算法的贝叶斯一致性,并证明了在度量空间有限两倍维度的情况下,该算法是强贝叶斯一致的,甚至在某些无限维情况下也是连贯的,这是一项有趣的发现,当前存在几个值得研究的问题。
May, 2017
通过简单修改最近邻分类器,我们展示了一个强 Bayes 一致的学习器,优于 k-NN 分类器,并在限制样本大小和算法时间方面具有较大的优势,获得了令人鼓舞的实验结果。
Jul, 2014
本文提出了一种简单的,能够使权重最优化的局部加权回归 / 分类方法,并能够为需要估计值的每个数据点高效地找到权重和最优化的邻居数量,从而在多个数据集上展示了比标准局部加权方法更优异的性能表现。
Jan, 2017
研究的主题是在多维单位盒子上基于样本的学习条件分布,采用聚类方法,在特征空间中的变化查询点附近聚类数据来创建目标空间的经验度量。聚类方案包括基于固定半径球和最近邻的方法,通过收敛速率的上界确定最佳的半径和邻居数量。通过在实践中进行经验分析,我们的建议是将最近邻方法结合到神经网络训练中,因为它在实践中的性能更好。训练过程利用随机二进制空间划分进行近似最近邻搜索以提高效率。另外,我们使用 Sinkhorn 算法和稀疏强制传输计划。经验研究结果表明,通过适当设计结构,神经网络能够在局部适应适当的 Lipschitz 连续性水平。用于可复现性的代码可在 https://github.com/zcheng-a/LCD_kNN 找到。
Jun, 2024
本文系统综述了最近邻搜索问题中的哈希学习算法,将其按照不同的相似性保存方式进行分类,并分别阐述其性能评估和效益分析,最终指出量化算法在搜索精度、搜索时间、空间花费等方面都表现优异,并介绍了一些新兴话题。
Jun, 2016
研究使用密度 p 在 R^d 上按随机方式绘制的 n 个数据点构建的加权或未加权 k 最近邻图的最短路径距离在样本大小趋近于无穷大时的收敛性,证明了对于未加权 k 最近邻图,此距离会收敛到底层空间上的不良距离函数,其性质对机器学习不利。同时,研究了加权 k 最近邻图中最短路径距离的行为。
Jun, 2012
该论文提出了一种改进的 K 近邻分类器,它可以自适应地为每个查询选择 K,该选择取决于每个邻域的属性,因此可能在不同点之间显着变化,并且可以利用条件概率推导推导出一些收敛界限。
May, 2019
本文提出一种基于加权平均值的熵估计器,利用 $k$- 最近邻距离和加权项来实现局部渐进极小化极小化损失下的效率估计,可以在任意维度上获得高效估计,并促进了渐近最小宽度熵的置信区间的构建。
Jun, 2016
该研究论文讨论了最近邻(NN)技术在模式识别、文本分类、目标识别等领域的应用。文中介绍了结构无关和结构相关技术,如加权 kNN,基于模型的 kNN 等结构无关技术以及 k-d 树,球树,主轴树,最近特征线,可调 NN 等结构相关算法,并提出了结构无关方法可以克服内存限制,而结构相关技术可以减少计算复杂度。
Jul, 2010
该研究介绍了一种利用特征空间中训练样例的相似性,鼓励每个样例预测与其最近邻居相似的学习方法,用于从带有噪声标签的数据中学习,并且在多个数据集上展现出良好的分类精度。
Feb, 2022