本文提出了利用约束稀疏编码来近似存储大规模向量数据库,并实现高效检索的方法,可以在保证码本量的情况下,索引如 BIGANN 等大规模数据集,实现了学习 / 编码时间、索引大小、搜索质量等多种因素的平衡。
Aug, 2016
本文提出了一种基于图遍历和压缩表征的方法,该方法编码可索引向量使用量化和利用图结构改进相似度估计。该方法在保证较小比较集的高精度及显著内存压缩的同时,在 64-128 字节每向量的操作点上,优于现有技术在二十亿规模公共基准测试中的表现。
Apr, 2018
该论文考虑了压缩域中的近似最近邻搜索问题,引入了一种叫做 “多义编码” 的方法,在保持了产品量化的距离估算质量和二进制码哈明距离的有效比较性质基础上进行设计,并通过在搜索时二者的双重解释加速了搜索。实验证明,该方法与粗粒度的特征空间分割方法是相辅相成的,并在几个公共基准数据集上得到了最新的结果。
Sep, 2016
这篇论文研究了针对现实世界中物体再识别(ReID)算法的嵌入式压缩技术,通过量化感知训练和三种不同的降维方法(迭代结构化剪枝、初始化时对嵌入进行切片以及使用低秩嵌入)进行了压缩性能评估,发现嵌入可以压缩高达 96 倍,且性能下降较小,这意味着现代再识别方法并没有充分利用高维潜在空间,为进一步提升系统能力开辟了新的研究方向。
May, 2024
本文介绍了一种新的矢量压缩方法 LVQ,与基于图的索引优化技术相结合能够提高性能,降低内存占用率,在亿级矢量检索中优于目前的最佳解决方案,其中低内存区间性能提高 20.7 倍,内存占用下降 3 倍。
Apr, 2023
我们提出了一种能够以比现有技术快 12 倍以上的速度压缩矢量并加速近似向量操作的矢量量化算法,用于计算近似点积等操作的速度可提高 10 倍以上,可以加速最近邻搜索和最大内积搜索 100 倍以上,并且与现有的矢量量化算法相比误差竞争力强。
Jun, 2017
本研究提出一种基于 k-reciprocal 编码和 Jaccard 距离的自动化重新排名方法,在人员再识别方面取得了好的效果,并且可以适用于大规模数据集。
Jan, 2017
该论文提出了一种基于紧凑代码的近似向量检索算法,通过选择源字典中的若干元素来近似一个向量,并将其表示为由所选元素的索引组成的短代码,从而实现查询向量和数据库向量间的内积相似度检索。通过理论分析和实验结果表明,提出的 $M$-selection 算法在紧凑代码相同长度的情况下,在检索精度和速度方面表现出卓越的性能。
Jun, 2014
本研究提出使用 feed-forward 神经网络来实现稀疏高维哈希码,并且通过对视觉和多模态数据的实验评估表明该方法具有显著的优势。
Dec, 2013
研究一个索引架构,从统计信号处理和决策理论角度,存储和搜索高维向量数据库。该架构由多个内存单元组成,每个内存单元通过单个代表向量总结一部分数据库。和穷举搜索相比,我们的方法能够更快地找到相似的数据库向量,而不会显著降低搜索质量。
Dec, 2014