非度量空间库手册

Aug, 2015

Non-Metric Space Library Manual

Bilegsaikhan Naidan, Leonid Boytsov, Yury Malkov, David Novak

TL;DR介绍了用于快速相似度 (k-NN) 搜索的库，侧重于非度量空间的通用和近似搜索方法，并提供了 Python 绑定的详细信息，NMSLIB 是第一个具有原则性支持非度量空间搜索的库。

Abstract

This document covers a library for fast similarity (k-nn)search. It describes only search methods and distances (spaces). Details about building, installing, python bindings can be found online:this https URL Eve

发现论文，激发创造

低维查询的近似最近邻搜索

研究了度量空间中近似最近邻的问题，其中查询点被限制在低重复维度的子空间上，而数据则是高维的。我们展示了尽管数据是高维的，这个问题仍能得到有效的解决。

Jul, 2010

基于动态连续索引的快速 K 最近邻搜索

提出一种新的无需数据空间分割的随机化算法来避免由于数据维度过高而导致的数据检索问题，并通过理论分析和实验结果来证明这种算法在数据近似性、速度和空间效率等方面优于传统的局部敏感哈希算法（LSH）

Dec, 2015

神经向量空间用于无监督信息检索

该研究介绍了一种名为神经向量空间模型（NVSM）的文档表示学习方法，其在新闻文章检索方面表现出很好的效果，该模型使用梯度下降从头开始学习单词和文档的低维表示，同时还能够在语义匹配和词汇匹配上表现良好。

Aug, 2017

最近邻近似样本压缩的近似最优解

介绍了第一个针对近邻的样本压缩算法，具有非平凡的性能保证，进一步展示了几乎匹配的困难性下界，提供了对度量空间中基于边界的近邻分类的新见解，并允许我们显著地加强和简化现有的边界定义。

Apr, 2014

相似性搜索的快速谱排序

本研究介绍了一种显式嵌入方法，将流形搜索转化为欧氏距离搜索，并且利用近似傅里叶基础加速在线搜索，从而提高了特定对象的检索精度和效率。

Mar, 2017

一般对称范数的近似最近邻

每个对称赋范空间都可以采用双对数逼近的方式建立有效的最近邻搜索数据结构。我们的算法的主要技术是一个对称范数到低维度 “top-k” 范数的迭代乘积的低扭曲嵌入。同时，我们证明这些方法无法推广到一般范数。

Nov, 2016

最近邻搜索的学习空间划分

本研究提出一种新的框架用于构建空间划分，将问题转化为平衡图划分和监督分类，并结合 KaHIP 图分区器和神经网络，实现了一种新的分区过程称为神经局部敏感哈希（Neural LSH），实验证明 Neural LSH 的分区在标准最近邻搜索（NNS）基准测试中，始终优于基于量化和树的方法，以及经典的数据无关 LSH。

Jan, 2019

学习字符串序列

采用通用相似度度量（USM）作为 K - 最近邻（K-NN）学习器中的替代距离度量，有效地识别可变长度序列数据，并与常用的字符串 - 词向量方法进行对比实验证明，USM 方法较字符串 - 词向量方法在垃圾邮件过滤和蛋白质亚细胞定位等领域的预测具有更高的准确性，并可生成可靠的概率预测。

May, 2024

相似度度量

提出了一种基于 Kolmogorov 复杂性的新的 “归一化信息距离” 度量方法，证明它是度量，称之为 “相似度量”，并演示了两个应用：比较整个线粒体基因组并推断它们的进化历史以及完全自动计算 52 种不同语言的语言树。

Nov, 2001

在连续空间上学习条件分布

研究的主题是在多维单位盒子上基于样本的学习条件分布，采用聚类方法，在特征空间中的变化查询点附近聚类数据来创建目标空间的经验度量。聚类方案包括基于固定半径球和最近邻的方法，通过收敛速率的上界确定最佳的半径和邻居数量。通过在实践中进行经验分析，我们的建议是将最近邻方法结合到神经网络训练中，因为它在实践中的性能更好。训练过程利用随机二进制空间划分进行近似最近邻搜索以提高效率。另外，我们使用 Sinkhorn 算法和稀疏强制传输计划。经验研究结果表明，通过适当设计结构，神经网络能够在局部适应适当的 Lipschitz 连续性水平。用于可复现性的代码可在 https://github.com/zcheng-a/LCD_kNN 找到。

Jun, 2024