多义码

ECCVSep, 2016

Polysemous codes

Matthijs Douze, Hervé Jégou, Florent Perronnin

TL;DR该论文考虑了压缩域中的近似最近邻搜索问题，引入了一种叫做 “多义编码” 的方法，在保持了产品量化的距离估算质量和二进制码哈明距离的有效比较性质基础上进行设计，并通过在搜索时二者的双重解释加速了搜索。实验证明，该方法与粗粒度的特征空间分割方法是相辅相成的，并在几个公共基准数据集上得到了最新的结果。

Abstract

This paper considers the problem of approximate nearest neighbor search in the compressed domain. We introduce polysemous codes, which off

approximate nearest neighbor search compressed domain polysemous codes product quantization hamming distance

发现论文，激发创造

复合量化

本文研究了一种用于近似最近邻搜索的紧凑编码方法，介绍了一种复合量化框架，其中包括使用不同字典中选定的若干元素的组合来准确近似 D 维向量，以此表示数据向量，实现准确搜索，从而实现距离计算成本从 O（D）降至 O（M）的近正交复合量化方法。

Dec, 2017

使用组合编码进行内积相似性搜索

该论文提出了一种基于紧凑代码的近似向量检索算法，通过选择源字典中的若干元素来近似一个向量，并将其表示为由所选元素的索引组成的短代码，从而实现查询向量和数据库向量间的内积相似度检索。通过理论分析和实验结果表明，提出的 $M$-selection 算法在紧凑代码相同长度的情况下，在检索精度和速度方面表现出卓越的性能。

Jun, 2014

在十亿个向量中搜索：用源编码重新排序

本文提出了一种在高维向量的压缩域内重新排列邻居猜想的方法，通过短量化码优化估算距离，以避免从磁盘中读取完整向量，实验证明该方法准确高效且占用较少内存。

Feb, 2011

基于多索引哈希的汉明空间快速精确搜索

使用紧凑的二进制编码表示图像数据和特征描述符的研究表明，多个哈希表可用于在 Hamming 空间中进行精确的 k 近邻搜索，并且在 64、128 或 256 位的十亿级数据集上，其运行时间呈子线性表现，从而实现了极大的速度提升。

Jul, 2013

稀疏量化表示的近似搜索

本文提出了利用约束稀疏编码来近似存储大规模向量数据库，并实现高效检索的方法，可以在保证码本量的情况下，索引如 BIGANN 等大规模数据集，实现了学习 / 编码时间、索引大小、搜索质量等多种因素的平衡。

Aug, 2016

基于加权二进制码的高效查询

本论文提出一种使用基于多索引哈希表（multi-index hash tables）方法的加权二进制编码查询算法，通过引入加权汉明距离和表格查找算法及表格合并算法，成功提高了查询的搜索效率和准确性。

Nov, 2019

优化的 Cartesian K-Means

本文提出了 Optimized Cartesian $K$-Means（OCKM）方法，用于对高维数据进行编码以实现更准确的最近邻搜索，通过多个子码本中的多个子码字进行编码以提供更大的灵活性和更低的失真误差

May, 2014

稀疏相似性保持哈希

本研究提出使用 feed-forward 神经网络来实现稀疏高维哈希码，并且通过对视觉和多模态数据的实验评估表明该方法具有显著的优势。

Dec, 2013

基于图形和紧凑回归码的快速索引

本文提出了一种基于图遍历和压缩表征的方法，该方法编码可索引向量使用量化和利用图结构改进相似度估计。该方法在保证较小比较集的高精度及显著内存压缩的同时，在 64-128 字节每向量的操作点上，优于现有技术在二十亿规模公共基准测试中的表现。

Apr, 2018

快速二进制嵌入和结构化矩阵量化压缩感知

本文提出了一种基于量化的快速 Johnson-Lindenstrauss 嵌入法，该方法使用有界正交系统和部分循环集合进行快速的嵌入，并利用噪声整形实现积极的降噪机制，该方法的误差多项式和指数衰减，是当前二进制嵌入和汉明距离所能达到的巅峰效果；此外，本文还提出了一种基于噪声整形机制的量化压缩感知度量方法，该方法在测量值的数量和比特数上实现了误差的多项式和指数衰减，是目前处理有限正交系统的最优表现。

Jan, 2018