本文研究针对大规模数据的聚类问题,提出一种基于短 PQ 码的高效聚类方法 PQk-means,能在低内存消耗下进行高维度向量的聚类,并在实验上获得了较好的结果。
Sep, 2017
提出了一种新颖的本地点云几何编码器 VecKM,具有描述性、高效性和鲁棒性。VecKM 利用向量化的核混合来表示本地点云,这种表示具有描述性和鲁棒性,通过两个定理证实了其重构和保持本地形状相似性的能力。此外,VecKM 是首次成功尝试将计算和存储成本从 $O (n^2+nKd)$ 减少到 $O (nd)$ 的编码器,牺牲了边际的常数因子,其中 $n$ 是点云的大小,$K$ 是邻域大小。在法线估计任务中,与现有的流行编码器相比,VecKM 不仅推断速度快 100 倍,而且具有最强的描述性和鲁棒性。在分类和分割任务中,将 VecKM 集成为预处理模块,始终比 PointNet、PointNet++ 和点变换器基线表现更好,并且运行速度始终快 10 倍。
Apr, 2024
本文研究了一种用于近似最近邻搜索的紧凑编码方法,介绍了一种复合量化框架,其中包括使用不同字典中选定的若干元素的组合来准确近似 D 维向量,以此表示数据向量,实现准确搜索,从而实现距离计算成本从 O(D)降至 O(M)的近正交复合量化方法。
Dec, 2017
该论文考虑了压缩域中的近似最近邻搜索问题,引入了一种叫做 “多义编码” 的方法,在保持了产品量化的距离估算质量和二进制码哈明距离的有效比较性质基础上进行设计,并通过在搜索时二者的双重解释加速了搜索。实验证明,该方法与粗粒度的特征空间分割方法是相辅相成的,并在几个公共基准数据集上得到了最新的结果。
Sep, 2016
文中提出一种替换 “one-hot” 编码的更紧凑的 K 路 D 维离散编码方案,称为 “KD 编码”。通过基于随机梯度下降的松弛离散优化方法,可以端到端地学习语义上有意义的编码,实验证明该方案在各种自然语言处理和图卷积网络应用中,可以将嵌入层的总大小减少高达 98%,同时实现类似或更好的性能。
Jun, 2018
使用 KD 编码的嵌入方法及基于随机梯度下降的离散优化技术,在语言建模实验中成功将嵌入参数减少了 97%,且优化了参数化效率和防止过拟合问题。
Nov, 2017
该论文提出了一种基于紧凑代码的近似向量检索算法,通过选择源字典中的若干元素来近似一个向量,并将其表示为由所选元素的索引组成的短代码,从而实现查询向量和数据库向量间的内积相似度检索。通过理论分析和实验结果表明,提出的 $M$-selection 算法在紧凑代码相同长度的情况下,在检索精度和速度方面表现出卓越的性能。
Jun, 2014
我们提出了一种基于量化的方法,用于快速近似最大内积搜索(MIPS),该方法利用一组通过最小化内积量化误差直接学习的码书对每个数据库向量在多个子空间上进行量化。通过子空间量化器的内积和来近似查询到数据库向量的内积。与最近提出的 LSH 方法不同,数据库向量和查询不需要在高维特征空间中进行扩展。我们还提供了所提出方法的理论分析,在较温和的假设下得出集中结果。此外,如果在训练时给出少量示例查询,则我们提出了修改的码书学习过程,可以进一步提高准确性。在包括来自深度神经网络的数据集在内的各种数据集上进行的实验结果表明,所提出的方法明显优于现有最先进的方法。
Sep, 2015
本文提出了一种压缩版本的 K-means 聚类方法 CKM,并通过实验证明,当采用与聚类中心数量和维度成比例的草图大小时,CKM 的聚类效果与 Lloyd-Max 相当,但计算复杂度与数据集大小无关,并且不需要多次重复运行,同时可以实现更好的手写数字分类效果。
Oct, 2016
我们提出了一种基于集合 K 子空间 (EKSS) 的几何方法,该算法通过证据积累聚类框架,形成一个共同关联矩阵,该矩阵的 (i,j) th 项是由多次运行具有随机初始化的 KSS 聚类算法将点 i 和 j 配对在一起的次数。我们表明,当一个算法形成的亲和力矩阵的具有和绝对内积的单调变换接近的条目时,该算法可以提供恢复保证。