向量量化的随机投影树
我们提出了一种能够以比现有技术快 12 倍以上的速度压缩矢量并加速近似向量操作的矢量量化算法,用于计算近似点积等操作的速度可提高 10 倍以上,可以加速最近邻搜索和最大内积搜索 100 倍以上,并且与现有的矢量量化算法相比误差竞争力强。
Jun, 2017
本研究通过理论与实验结合的方法,探讨了更广泛的树类组合,以了解空间划分可以利用数据的内在低维结构的程度,对于回归、向量量化和最近邻搜索等标准统计任务的影响,并证实了随机投影树是适应数据固有维数的。
May, 2012
本文提出一种正则化的向量量化框架,通过两种正则化方法有效缓解确定性量化和随机量化所存在的问题,并设计出一种概率对比损失作为更进一步缓解扰动重构目标的标准度量,实验表明该框架在不同的生成模型中表现都比现有的向量量化方法更优。
Mar, 2023
量化是许多机器学习应用中的基础优化之一,该研究论文重新审视自适应矢量量化问题,并提出了改进的时间和空间复杂度的最优解算法,以及适用于大型输入的更快的近似最优算法。实验结果表明这些算法可能在各种机器学习应用中更广泛地应用于自适应矢量量化。
Feb, 2024
我们提出使用有限数量标量量化(FSQ)替代 VQ-VAEs 中的向量量化(VQ),通过将 VAE 表示投影到少量维度中,并将每个维度量化为固定值的小集合,从而实现离散表示。我们在图像生成中使用 MaskGIT,以及在深度估计、上色和全景分割中使用 UViM,尽管 FSQ 的设计简单,但在这些任务中获得竞争性表现。我们强调 FSQ 不会出现代码本崩溃问题,也不需要复杂的机制来学习表达丰富的离散表示。
Sep, 2023
本研究提出了一种利用随机超平面投影和量化技术,减小预处理数据的存储和带宽需求,从而使得边缘设备可以高效地进行推理和训练,并且在多语言句子分类任务中保持了良好的性能。
Mar, 2023
本文提出了利用约束稀疏编码来近似存储大规模向量数据库,并实现高效检索的方法,可以在保证码本量的情况下,索引如 BIGANN 等大规模数据集,实现了学习 / 编码时间、索引大小、搜索质量等多种因素的平衡。
Aug, 2016