在十亿个向量中搜索：用源编码重新排序

Feb, 2011

在十亿个向量中搜索：用源编码重新排序

Searching in one billion vectors: re-rank with source coding

Hervé Jégou, Romain Tavenard, Matthijs Douze, Laurent Amsaleg

TL;DR本文提出了一种在高维向量的压缩域内重新排列邻居猜想的方法，通过短量化码优化估算距离，以避免从磁盘中读取完整向量，实验证明该方法准确高效且占用较少内存。

Abstract

Recent indexing techniques inspired by source coding have been shown successful to index billions of high-dimensional vectors in memory. I

indexing techniques source coding compressed-domain indexing high-dimensional vectors neighbor hypotheses

发现论文，激发创造

稀疏量化表示的近似搜索

本文提出了利用约束稀疏编码来近似存储大规模向量数据库，并实现高效检索的方法，可以在保证码本量的情况下，索引如 BIGANN 等大规模数据集，实现了学习 / 编码时间、索引大小、搜索质量等多种因素的平衡。

Aug, 2016

基于图形和紧凑回归码的快速索引

本文提出了一种基于图遍历和压缩表征的方法，该方法编码可索引向量使用量化和利用图结构改进相似度估计。该方法在保证较小比较集的高精度及显著内存压缩的同时，在 64-128 字节每向量的操作点上，优于现有技术在二十亿规模公共基准测试中的表现。

Apr, 2018

多义码

该论文考虑了压缩域中的近似最近邻搜索问题，引入了一种叫做 “多义编码” 的方法，在保持了产品量化的距离估算质量和二进制码哈明距离的有效比较性质基础上进行设计，并通过在搜索时二者的双重解释加速了搜索。实验证明，该方法与粗粒度的特征空间分割方法是相辅相成的，并在几个公共基准数据集上得到了最新的结果。

Sep, 2016

用于高效再识别的嵌入式压缩

这篇论文研究了针对现实世界中物体再识别（ReID）算法的嵌入式压缩技术，通过量化感知训练和三种不同的降维方法（迭代结构化剪枝、初始化时对嵌入进行切片以及使用低秩嵌入）进行了压缩性能评估，发现嵌入可以压缩高达 96 倍，且性能下降较小，这意味着现代再识别方法并没有充分利用高维潜在空间，为进一步提升系统能力开辟了新的研究方向。

May, 2024

压缩索引下的瞬间相似度搜索

本文介绍了一种新的矢量压缩方法 LVQ，与基于图的索引优化技术相结合能够提高性能，降低内存占用率，在亿级矢量检索中优于目前的最佳解决方案，其中低内存区间性能提高 20.7 倍，内存占用下降 3 倍。

Apr, 2023

Bolt：快速向量压缩加速数据挖掘

我们提出了一种能够以比现有技术快 12 倍以上的速度压缩矢量并加速近似向量操作的矢量量化算法，用于计算近似点积等操作的速度可提高 10 倍以上，可以加速最近邻搜索和最大内积搜索 100 倍以上，并且与现有的矢量量化算法相比误差竞争力强。

Jun, 2017

k - 相似编码重新排序的人物再识别

本研究提出一种基于 k-reciprocal 编码和 Jaccard 距离的自动化重新排名方法，在人员再识别方面取得了好的效果，并且可以适用于大规模数据集。

Jan, 2017

使用组合编码进行内积相似性搜索

该论文提出了一种基于紧凑代码的近似向量检索算法，通过选择源字典中的若干元素来近似一个向量，并将其表示为由所选元素的索引组成的短代码，从而实现查询向量和数据库向量间的内积相似度检索。通过理论分析和实验结果表明，提出的 $M$-selection 算法在紧凑代码相同长度的情况下，在检索精度和速度方面表现出卓越的性能。

Jun, 2014

稀疏相似性保持哈希

本研究提出使用 feed-forward 神经网络来实现稀疏高维哈希码，并且通过对视觉和多模态数据的实验评估表明该方法具有显著的优势。

Dec, 2013

用于高维空间相似度搜索的记忆向量

研究一个索引架构，从统计信号处理和决策理论角度，存储和搜索高维向量数据库。该架构由多个内存单元组成，每个内存单元通过单个代表向量总结一部分数据库。和穷举搜索相比，我们的方法能够更快地找到相似的数据库向量，而不会显著降低搜索质量。

Dec, 2014