- AiSAQ:全存储 ANNS 与产品量化用于无 DRAM 信息检索
本文提出了一种名为 All-in-Storage ANNS with Product Quantization (AiSAQ) 的方法,通过将压缩向量转移到存储器中,可以在十亿级别的数据集中实现约 10MB 的内存使用,同时还能减少查询之前 - SOAR:改进的近似最近邻搜索索引化
SOAR 是一种新的数据索引技术,用于近似最近邻搜索。它通过使用正交扩增残差损失来优化每个表示,从而提高索引质量,同时保持快速索引时间和低内存消耗,从而获得最先进的 ANN 基准性能。
- 基于图的概率路由的近似最近邻搜索
通过引入具有概率保证的方法,该研究旨在增强基于图的最近邻搜索中的路由,提出了 PEOs,一种有效地确定图中应考虑的邻居进行准确距离计算的新方法,实验证明其在常用图索引(HNSW)上可以提高吞吐量 1.6 到 2.5 倍,并且其效率始终比最先 - 非参数记忆引导的多文档摘要
我们提出了一种用于摘要生成的检索引导模型,结合了非参数记忆。该模型使用近似最近邻搜索从数据库中检索相关的候选文本,然后利用复制机制和源文档生成摘要。我们在包括科学文章的 MultiXScience 数据集上评估了我们的方法,并讨论了我们的结 - 向量数据库:存储和检索技术、挑战的综合调查
本论文综述了现有的近似最近邻搜索算法,并按照基于哈希、基于树、基于图和基于量化的方法对这些研究进行了分类。此外,论文还提出了向量数据库面临的挑战,并探讨了将向量数据库与大型语言模型结合的新可能性。
- EHI: 高效稠密检索的分层索引端到端学习
通过密集嵌入式检索技术,提出了一种名为 End-to-end Hierarchical Indexing(EHI)的方法,同时学习嵌入和近似最近邻搜索结构,以优化检索性能。在几个基准测试中,EHI 在相同的计算预算下超过了业界标准,例如在 - CAGRA: 高并行图构建和 GPU 上的近似最近邻搜索
通过使用现代硬件的高性能能力,我们的方法在构建接近图时,构建时间比 HNSW 快 2.2~27 倍;在大批量查询吞吐量方面,在 90% 至 95% 召回范围内,我们的方法比 HNSW 快 33~77 倍,并且比 GPU 的最新实现快 3.8 - 双瓶颈自编码哈希的监督学习
本文通过将标签信息纳入模型的训练,将原始的自动编码双瓶颈哈希模型推广为一种有监督的深度哈希网络,着重考虑多标签数据集中的类不平衡问题,并在三个数据集上进行实验,取得了显著的提高。
- AdANNS:自适应语义搜索框架
本文介绍了一种基于 Matryoshka Representations 的 ANNS 设计框架 - AdANNS,通过使用不同容量的自适应表示来实现更好的准确性和计算效率平衡,例如在图像检索上,AdANNS-IVF 与在相同计算预算下基于 - SPANN:高效的十亿级近似最近邻搜索
本文提出了一种名为 SPANN 的内存磁盘混合索引和搜索系统,它采用倒排索引方法论,将单元点存储在内存中,较大的单元列表存储在磁盘中,采用分层平衡聚类算法来平衡单元列表的长度,采用查询感知方案动态修剪不必要的单元列表查询,实验证明该系统相较 - FreshDiskANN:一种用于流式相似度搜索的快速准确基于图的 ANN 索引
本文提出了一种可以在实时反映文本更新的图形近似最近邻搜索方法,使用 update rules 实现了 FreshDiskANN 系统,能够在单个工作站上索引十亿个点,支持实时插入、删除和搜索,优化了索引保持新鲜的成本。
- SIGIR基于产品量化嵌入索引的深度检索模型联合学习
本文提出了一种称为 Poeem 的新方法,它采用了产品量化嵌入索引与深度检索模型联合训练的方法,将嵌入学习和索引构建两个步骤统一起来,从而提高了检索准确率,减少了索引时间,并公开了我们的方法以便于比较和重现。
- ACL通过生成伪查询嵌入以改善密集检索的文档表示
本论文提出了一种基于聚类的检索模型,通过迭代聚类过程来模拟查询,并将文档表示为多个伪查询,通过两步得分计算程序优化匹配函数,实现了高效的近似最近邻搜索,达到了最先进的结果。
- 基于图的近似最近邻搜索的综合调查和实验比较
本文综述了 13 个代表性的基于图的近似最近邻搜索算法,通过新的分类和细粒度的流程进行了比较分析和实验评估。该研究提供了优化算法的原则并设计了一种优化方法,可以优于现有的基于图的近似最近邻算法。同时还提供了关于有前途的研究方向和适合不同领域 - IJCAICIMON: 面向高质量哈希码
本文提出了一种名为 CIMON 的新方法,通过全局细化和相似性统计分布获得可靠且平滑的指导,并引入语义和对比一致性学习来推导既具有扰动不变性又具有区分性的哈希码,通过在多个基准数据集上进行的大量实验证明,该提出的方法在检索性能和鲁棒性方面均 - 基于最长循环共子串的局部敏感哈希方案
这篇论文提出了一种新的基于 LCCS-LSH 框架的 LSH 方案,它引入了 LCCS 的概念和一种新的数据结构 CSA,并支持不同类型的距离度量,能够实现 $c$-ANNS,实验结果表明它的性能优于现有的 LSH 方案。
- 网页搜索中的通用意图表示
本文提出了通用意图编码器(GEN 编码器),该编码器可以通过学习大规模 Bing 搜索日志中的用户点击,生成用户搜索意图的分布式表示空间,最终在多个释义任务上进行微调,实验证明 GEN 编码器在查询意图相似性建模方面具有鲁棒性且优于现有方法 - 连续空间端到端检索
通过培训简单的检索专用模型,并采用合适的模型架构,我们考虑了端到端的连续检索问题,并使用标准的近似最近邻搜索代替通常的离散倒排索引,仅依靠学习嵌入之间的距离。在两个相似问题检索任务上,我们在离散基线上实现了 8%和 26%(MAP)的提升, - MM可重构倒排索引
本文提出了一种可重构倒排索引(Rii)以解决近似最近邻搜索系统的两个重要问题:运行子集搜索困难和新项目增加后性能下降。基于标准 IVFADC 系统,Rii 设计了一种数据布局方法,使得项目被线性存储。由于线性布局,数据结构可以动态调整,维护 - 近似最近邻搜索的难度
采用代数几何编码,利用分布式 PCP 框架,证明了近二次运行时间下的条件下的近似双色最近点问题(包括 Euclidean,Manhattan,Hamming 或编辑距离),提出了新的硬度结果,其特别适用于多项式预处理时间的近似最近邻搜索问题