加速二进制嵌入以保持欧几里得距离

ICLROct, 2020

加速二进制嵌入以保持欧几里得距离

Faster Binary Embeddings for Preserving Euclidean Distances

Jinjie Zhang, Rayan Saab

TL;DR本文提出一种快速、距离保持的二进制嵌入算法，通过对稀疏矩阵进行稳定的噪音形状量化，实现将高维数据集转换为二进制序列，准确地表示了主题和研究领域。

Abstract

We propose a fast, distance-preserving, binary embedding algorithm to transform a high-dimensional dataset $\mathcal{T}\subseteq\mathbb{R}^n$ into binary sequences in the cube $\{\pm 1\}^m$. When $\mathcal{T}$ consists of well-spread (i.e., non-sparse) vectors, our embedding method app

binary embedding sparse vectors euclidean distance quantization error accuracy

发现论文，激发创造

快速二进制嵌入和结构化矩阵量化压缩感知

本文提出了一种基于量化的快速 Johnson-Lindenstrauss 嵌入法，该方法使用有界正交系统和部分循环集合进行快速的嵌入，并利用噪声整形实现积极的降噪机制，该方法的误差多项式和指数衰减，是当前二进制嵌入和汉明距离所能达到的巅峰效果；此外，本文还提出了一种基于噪声整形机制的量化压缩感知度量方法，该方法在测量值的数量和比特数上实现了误差的多项式和指数衰减，是目前处理有限正交系统的最优表现。

Jan, 2018

二进制嵌入：基本限制与快速算法

本文提出了一种基于二进制编码的非线性降维方法，能够在保留原始空间结构的同时，将高维数据嵌入到汉明立方体中，实现对任意集合中点的编码，并在理论上证明了该方法的最优位数下界及哈明距离下的非遗忘式编码，同时针对一般点集甚至无限点集提供了分析结果，并通过实验验证了理论结论的有效性。

Feb, 2015

任意集合的二元嵌入的近似最优界限

研究了将单位球面子集嵌入到 Hamming 立方体中的方法，利用高斯宽度表征了失真和样本复杂度之间的权衡关系，并提供了嵌入点的局部嵌入以及更快的二进制嵌入等改进方案。

Dec, 2015

利用高斯循环矩阵的快速二进制编码：改进界限

本文研究如何通过二进制嵌入方法在保留向量之间的角度距离信息的同时，将一个有限向量集编码为少量比特位。通过推导出与二元高斯循环嵌入相关的改进方差界，我们基本上解决了最佳快速二进制嵌入方法的证明中的漏洞。我们的界限也表明，早期关于方差界的工作中需要的数据向量分散的假设是不必要的。此外，我们提出了一种在稀疏数据上具有更快运行时间的二元嵌入方法。

Aug, 2016

循环二进制嵌入的接近最优样本复杂度界限

本文介绍了如何使用 Fourier 转换，尤其是环移矩阵来进行二进制嵌入，即将高维空间中的点映射到低维的 Hamming 立方体中以保留成对距离。作者提出了优化的方法，可以通过使用 k ~ δ^(-3) logN 个样本将 N 个 R^n 中的点正确地嵌入到 Hamming 立方体中，优于最优距离依赖关系 δ^(-2)，适用于标准条件 logN≲n^(1/3)。此外，如果满足 logN≲sqrt (n) 的较宽松条件，则可以将除随机小分数以外的所有点置于最优位置。该文认为此任务可以应用于其他非线性嵌入问题，并提出它可能有用的保证改进技术。

Mar, 2016

结构化散列投影的二进制嵌入

此论文研究了利用哈希机制来构建二进制嵌入的方法，该方法包括伪随机投影和非线性映射，使用结构化矩阵可以有效地压缩信息并降低随机性使用，实验证明了其对神经网络学习性能和最近邻分类器性能的依赖关系。

Nov, 2015

图的伯努利嵌入

通过将图表数据的嵌入视为不同偏置下的独立硬币翻转，应用持续优化技术来获得二元向量的简单且有效模型，得出了优于谱图嵌入和各种学习实值嵌入的量化结果，可以显著降低图表数据检索的延迟。

Mar, 2018

可定量表达的高效端到端学习

通过神经网络进行嵌入表示学习是现代基于相似性的搜索的核心基础。该研究旨在直接学习可量化的嵌入表示和稀疏二进制哈希码，从而实现构建高效哈希表，提供显著的搜索数据减少和超越以往的度量学习方法的最新搜索准确性。

May, 2018

词嵌入的几乎无损二值化

本文提出一种基于自编码器的方法将实值的词向量转化为二进制向量，从而在减小空间占用的同时只损失了 2% 的精度。实验结果表明，使用这些二进制向量比使用实值向量快 30 倍。

Mar, 2018

Bolt：快速向量压缩加速数据挖掘

我们提出了一种能够以比现有技术快 12 倍以上的速度压缩矢量并加速近似向量操作的矢量量化算法，用于计算近似点积等操作的速度可提高 10 倍以上，可以加速最近邻搜索和最大内积搜索 100 倍以上，并且与现有的矢量量化算法相比误差竞争力强。

Jun, 2017