- SIGIRFAISS 和 FENSHSES 在汉明空间最近邻搜索中的经验比较
比较了 FAISS 和 FENSHSES 在汉明空间最近邻搜索中的表现,通过索引速度、搜索延迟和 RAM 消耗等方面进行综合评估。本比较旨在更好地理解主存和二级存储实现的最近邻搜索系统之间的权衡,这在文献中得到了很少讨论。
- ICML相似性图中的路由学习
本文探讨相似性图在最近邻搜索中的应用,提出了一种学习路由函数以克服局部极小值并显著提高整体搜索性能的方法。
- ICLR最近邻搜索的学习空间划分
本研究提出一种新的框架用于构建空间划分,将问题转化为平衡图划分和监督分类,并结合 KaHIP 图分区器和神经网络,实现了一种新的分区过程称为神经局部敏感哈希(Neural LSH),实验证明 Neural LSH 的分区在标准最近邻搜索(N - 更快的 ADC: 利用 SIMD 解锁产品量化的潜力
该研究提出了 Quicker ADC 算法,利用 SIMD 指令和不规则的产生量化器,实现了更高效的高维空间多媒体检索和最近邻搜索,且优于当前优化实现,并在 FAISS 上实现了开源分支。
- 使用代理进行可扩展的 Logo 识别
本文研究了 logo 识别问题,提出了一种 few-shot 目标检测的解决方案,其中主要包括通用的 logo 检测器和 few-shot logo 识别器,通过最近邻搜索和训练三元损失函数使用代理进行分类,提出了一个新的 2000 个 l - 有限空间中的近似最近邻
研究了最近邻搜索的问题,提出了一种占用空间小且准确度高的数据结构,能够快速地估算出给定数据点和查询点之间的距离。同时也解决了问题的空间复杂度限制与维数的关系。
- ECCV重访用于亿级近似最近邻的倒排索引
本文提出一种新的基于倒排索引的检索系统,相比于现有的基于多重索引的系统,在相同内存消耗和构建复杂度下,在十亿级深度描述符数据集上,取得了数倍于现有最先进方法的检索性能。
- 复合量化
本文研究了一种用于近似最近邻搜索的紧凑编码方法,介绍了一种复合量化框架,其中包括使用不同字典中选定的若干元素的组合来准确近似 D 维向量,以此表示数据向量,实现准确搜索,从而实现距离计算成本从 O(D)降至 O(M)的近正交复合量化方法。
- ICML利用对抗性训练产生的模型置信度来增强对抗性鲁棒性
研究使用通过对抗训练引入的置信度信息来增强给定对抗性训练模型的对抗鲁棒性及提出基于置信度信息和最近邻搜索的 Highly Confident Near Neighbor(HCNN)框架,以加强基本模型的对抗鲁棒性,并进行详细的实证研究。
- 不对称深度监督哈希
本研究提出了一种新的深度学习哈希方法,叫做不对称深度监督哈希,针对大规模最近邻搜索。该方法仅针对查询点学习深度哈希函数,而直接学习数据库点的哈希代码。实验表明 ADSH 可以在真实应用中实现最先进的性能。
- KDDBolt:快速向量压缩加速数据挖掘
我们提出了一种能够以比现有技术快 12 倍以上的速度压缩矢量并加速近似向量操作的矢量量化算法,用于计算近似点积等操作的速度可提高 10 倍以上,可以加速最近邻搜索和最大内积搜索 100 倍以上,并且与现有的矢量量化算法相比误差竞争力强。
- 使用 Quick ADC 加速最近邻搜索
本文提出了一种名为 Quick ADC 的新技术,通过利用当前 CPU 中可用的单指令多数据 (SIMD) 单元,实现了对 ADC 的 3-6 倍加速,并提出了两个关键算法修改,将 8 位子量化器替换为 4 位子量化器和定量化浮点距离。
- AAAI有序约束二进制编码学习用于最近邻搜索
该研究提出了一种新的哈希方法,名为 Ordinal Constraint Hashing(OCH),其使用基于图的近似来嵌入排序关系,并通过排序级数约束投影减少排序图的大小。此外,该方法还通过松散约束和特定的随机梯度下降算法来有效地学习这些 - 一般对称范数的近似最近邻
每个对称赋范空间都可以采用双对数逼近的方式建立有效的最近邻搜索数据结构。我们的算法的主要技术是一个对称范数到低维度 “top-k” 范数的迭代乘积的低扭曲嵌入。同时,我们证明这些方法无法推广到一般范数。
- 学习哈希的调查
本文系统综述了最近邻搜索问题中的哈希学习算法,将其按照不同的相似性保存方式进行分类,并分别阐述其性能评估和效益分析,最终指出量化算法在搜索精度、搜索时间、空间花费等方面都表现优异,并介绍了一些新兴话题。
- 数据相关局部敏感哈希的紧密下界
证明了不同于传统的局部敏感哈希,数据依赖性哈希在设计高效的近似最近邻搜索算法时明显优越,我们证明了 $
ho$ 的下界,要求哈希函数具有简洁性质。
- KDD岭回归、Hubness 和零 - shot 学习
本文探讨了零样本学习中 hubness 的影响,当使用岭回归在例子空间和标签空间之间寻找映射关系时。我们提出了将标签映射到例子空间的方法,以抑制后续最近邻搜索步骤中的 hub 出现。在一个简单的数据模型下,我们证明了所提出的方法确实减少了 - 利用相邻图导航语义地图
本研究探讨了分布语义模型中的最近邻搜索,并提出了使用拓扑结构来达到词义感知和确定语义范围的方法,使用相对邻域图来确认语义模型中邻域的拓扑属性,探讨了 PMI 模型、GloVe 模型和 skipgram 模型的相对邻域图。
- 一项相似性搜索的哈希调查
本文介绍了哈希方法作为解决最近邻搜索问题的一种主要方法的概述,其中对基于数据分布设计哈希函数和基于数据学习设计哈希函数的两种主要哈希算法进行了阐述和综述。
- 最近邻搜索的频谱方法
论文研究高维最近邻搜索问题的谱算法,旨在提供理论解释为何在实践中谱最近邻算法优于理论上的最优随机投影方法,其使用了高维数据的 PCA 降维和重复计算等技术。