非度量空间库手册
提出一种新的无需数据空间分割的随机化算法来避免由于数据维度过高而导致的数据检索问题,并通过理论分析和实验结果来证明这种算法在数据近似性、速度和空间效率等方面优于传统的局部敏感哈希算法(LSH)
Dec, 2015
该研究介绍了一种名为神经向量空间模型(NVSM)的文档表示学习方法,其在新闻文章检索方面表现出很好的效果,该模型使用梯度下降从头开始学习单词和文档的低维表示,同时还能够在语义匹配和词汇匹配上表现良好。
Aug, 2017
介绍了第一个针对近邻的样本压缩算法,具有非平凡的性能保证,进一步展示了几乎匹配的困难性下界,提供了对度量空间中基于边界的近邻分类的新见解,并允许我们显著地加强和简化现有的边界定义。
Apr, 2014
每个对称赋范空间都可以采用双对数逼近的方式建立有效的最近邻搜索数据结构。我们的算法的主要技术是一个对称范数到低维度 “top-k” 范数的迭代乘积的低扭曲嵌入。同时,我们证明这些方法无法推广到一般范数。
Nov, 2016
本研究提出一种新的框架用于构建空间划分,将问题转化为平衡图划分和监督分类,并结合 KaHIP 图分区器和神经网络,实现了一种新的分区过程称为神经局部敏感哈希(Neural LSH),实验证明 Neural LSH 的分区在标准最近邻搜索(NNS)基准测试中,始终优于基于量化和树的方法,以及经典的数据无关 LSH。
Jan, 2019
采用通用相似度度量(USM)作为 K - 最近邻(K-NN)学习器中的替代距离度量,有效地识别可变长度序列数据,并与常用的字符串 - 词向量方法进行对比实验证明,USM 方法较字符串 - 词向量方法在垃圾邮件过滤和蛋白质亚细胞定位等领域的预测具有更高的准确性,并可生成可靠的概率预测。
May, 2024
提出了一种基于 Kolmogorov 复杂性的新的 “归一化信息距离” 度量方法,证明它是度量,称之为 “相似度量”,并演示了两个应用:比较整个线粒体基因组并推断它们的进化历史以及完全自动计算 52 种不同语言的语言树。
Nov, 2001
研究的主题是在多维单位盒子上基于样本的学习条件分布,采用聚类方法,在特征空间中的变化查询点附近聚类数据来创建目标空间的经验度量。聚类方案包括基于固定半径球和最近邻的方法,通过收敛速率的上界确定最佳的半径和邻居数量。通过在实践中进行经验分析,我们的建议是将最近邻方法结合到神经网络训练中,因为它在实践中的性能更好。训练过程利用随机二进制空间划分进行近似最近邻搜索以提高效率。另外,我们使用 Sinkhorn 算法和稀疏强制传输计划。经验研究结果表明,通过适当设计结构,神经网络能够在局部适应适当的 Lipschitz 连续性水平。用于可复现性的代码可在 https://github.com/zcheng-a/LCD_kNN 找到。
Jun, 2024