加权距离最近邻样本压缩

Oct, 2023

Weighted Distance Nearest Neighbor Condensing

Lee-Ad Gottlieb, Timor Sharabi, Roi Weiss

TL;DR最近邻点压缩问题的加权距离最近邻点压缩模型，其理论性质得到研究，表现出比标准最近邻规则具有更好的压缩效果，但其一般化边界与后者几乎相同。对该问题建议了一种压缩启发式方法，在贝叶斯一致性和实证结果方面已取得有希望的成果。

Abstract

The problem of nearest neighbor condensing has enjoyed a long history of study, both in its theoretical and practical aspects. In this paper, we introduce the problem of weighted distance →

nearest neighbor condensing weighted distance condensed set generalization bounds condensing heuristic

发现论文，激发创造

最近邻样本压缩：效率、一致性、无限维度

本文研究了一个基于样本压缩界限的多类学习算法的贝叶斯一致性，并证明了在度量空间有限两倍维度的情况下，该算法是强贝叶斯一致的，甚至在某些无限维情况下也是连贯的，这是一项有趣的发现，当前存在几个值得研究的问题。

May, 2017

一个贝叶斯一致的 1-NN 分类器

通过简单修改最近邻分类器，我们展示了一个强 Bayes 一致的学习器，优于 k-NN 分类器，并在限制样本大小和算法时间方面具有较大的优势，获得了令人鼓舞的实验结果。

Jul, 2014

k*- 最近邻居：从全局到局部

本文提出了一种简单的，能够使权重最优化的局部加权回归 / 分类方法，并能够为需要估计值的每个数据点高效地找到权重和最优化的邻居数量，从而在多个数据集上展示了比标准局部加权方法更优异的性能表现。

Jan, 2017

在连续空间上学习条件分布

研究的主题是在多维单位盒子上基于样本的学习条件分布，采用聚类方法，在特征空间中的变化查询点附近聚类数据来创建目标空间的经验度量。聚类方案包括基于固定半径球和最近邻的方法，通过收敛速率的上界确定最佳的半径和邻居数量。通过在实践中进行经验分析，我们的建议是将最近邻方法结合到神经网络训练中，因为它在实践中的性能更好。训练过程利用随机二进制空间划分进行近似最近邻搜索以提高效率。另外，我们使用 Sinkhorn 算法和稀疏强制传输计划。经验研究结果表明，通过适当设计结构，神经网络能够在局部适应适当的 Lipschitz 连续性水平。用于可复现性的代码可在 https://github.com/zcheng-a/LCD_kNN 找到。

Jun, 2024

学习哈希的调查

本文系统综述了最近邻搜索问题中的哈希学习算法，将其按照不同的相似性保存方式进行分类，并分别阐述其性能评估和效益分析，最终指出量化算法在搜索精度、搜索时间、空间花费等方面都表现优异，并介绍了一些新兴话题。

Jun, 2016

随机 k 近邻图中的最短路径距离

研究使用密度 p 在 R^d 上按随机方式绘制的 n 个数据点构建的加权或未加权 k 最近邻图的最短路径距离在样本大小趋近于无穷大时的收敛性，证明了对于未加权 k 最近邻图，此距离会收敛到底层空间上的不良距离函数，其性质对机器学习不利。同时，研究了加权 k 最近邻图中最短路径距离的行为。

Jun, 2012

分类的自适应最近邻规则

该论文提出了一种改进的 K 近邻分类器，它可以自适应地为每个查询选择 K，该选择取决于每个邻域的属性，因此可能在不同点之间显着变化，并且可以利用条件概率推导推导出一些收敛界限。

May, 2019

通过 $k$- 最近邻距离高效估算多元熵

本文提出一种基于加权平均值的熵估计器，利用 $k$- 最近邻距离和加权项来实现局部渐进极小化极小化损失下的效率估计，可以在任意维度上获得高效估计，并促进了渐近最小宽度熵的置信区间的构建。

Jun, 2016