本文研究了一种用于近似最近邻搜索的紧凑编码方法,介绍了一种复合量化框架,其中包括使用不同字典中选定的若干元素的组合来准确近似 D 维向量,以此表示数据向量,实现准确搜索,从而实现距离计算成本从 O(D)降至 O(M)的近正交复合量化方法。
Dec, 2017
该论文提出了一种基于紧凑代码的近似向量检索算法,通过选择源字典中的若干元素来近似一个向量,并将其表示为由所选元素的索引组成的短代码,从而实现查询向量和数据库向量间的内积相似度检索。通过理论分析和实验结果表明,提出的 $M$-selection 算法在紧凑代码相同长度的情况下,在检索精度和速度方面表现出卓越的性能。
Jun, 2014
本文提出了一种在高维向量的压缩域内重新排列邻居猜想的方法,通过短量化码优化估算距离,以避免从磁盘中读取完整向量,实验证明该方法准确高效且占用较少内存。
Feb, 2011
使用紧凑的二进制编码表示图像数据和特征描述符的研究表明,多个哈希表可用于在 Hamming 空间中进行精确的 k 近邻搜索,并且在 64、128 或 256 位的十亿级数据集上,其运行时间呈子线性表现,从而实现了极大的速度提升。
Jul, 2013
本文提出了利用约束稀疏编码来近似存储大规模向量数据库,并实现高效检索的方法,可以在保证码本量的情况下,索引如 BIGANN 等大规模数据集,实现了学习 / 编码时间、索引大小、搜索质量等多种因素的平衡。
Aug, 2016
本论文提出一种使用基于多索引哈希表(multi-index hash tables)方法的加权二进制编码查询算法,通过引入加权汉明距离和表格查找算法及表格合并算法,成功提高了查询的搜索效率和准确性。
Nov, 2019
本文提出了 Optimized Cartesian $K$-Means(OCKM)方法,用于对高维数据进行编码以实现更准确的最近邻搜索,通过多个子码本中的多个子码字进行编码以提供更大的灵活性和更低的失真误差
May, 2014
本研究提出使用 feed-forward 神经网络来实现稀疏高维哈希码,并且通过对视觉和多模态数据的实验评估表明该方法具有显著的优势。
Dec, 2013
本文提出了一种基于图遍历和压缩表征的方法,该方法编码可索引向量使用量化和利用图结构改进相似度估计。该方法在保证较小比较集的高精度及显著内存压缩的同时,在 64-128 字节每向量的操作点上,优于现有技术在二十亿规模公共基准测试中的表现。
Apr, 2018
本文提出了一种基于量化的快速 Johnson-Lindenstrauss 嵌入法,该方法使用有界正交系统和部分循环集合进行快速的嵌入,并利用噪声整形实现积极的降噪机制,该方法的误差多项式和指数衰减,是当前二进制嵌入和汉明距离所能达到的巅峰效果;此外,本文还提出了一种基于噪声整形机制的量化压缩感知度量方法,该方法在测量值的数量和比特数上实现了误差的多项式和指数衰减,是目前处理有限正交系统的最优表现。
Jan, 2018