基于 GPU 的十亿级相似度搜索
本研究提出基于 Product Quantization 的两层向量量化树的 ANN 搜索新方法,在 GPU 实现方面取得了比 CPU 更高的性能表现,适用于视频中循环关闭等对时间敏感的高维问题。
Feb, 2017
本文提出了一种基于图遍历和压缩表征的方法,该方法编码可索引向量使用量化和利用图结构改进相似度估计。该方法在保证较小比较集的高精度及显著内存压缩的同时,在 64-128 字节每向量的操作点上,优于现有技术在二十亿规模公共基准测试中的表现。
Apr, 2018
本文提出了 MaxK-GNN,一个高性能的 GPU 训练系统,通过集成算法和系统创新来实现。在 MaxK-GNN 系统的广泛评估中,实验结果显示其接近 Amdahl 法则的理论极限,相对于 DGL 和 GNNAdvisor 的实现,在 Reddit 上实现了 3.22/4.24 倍的速度提升(相对于理论极限的 5.52/7.27 倍),并且达到了与 SOTA GNN 相当的准确性。
Dec, 2023
通过使用知识图谱嵌入向量,我们提出了一个高效的 GPU 支持的知识图谱完成框架来获取新的关系,并且我们通过将知识图铺完问题转化为 “可转化为度量空间” 的相似性连接问题,并使用度量空间特性导出公式来快速处理相似性连接问题的方法,来实验性地展示我们的框架能够高效地处理知识图谱完成问题。
Jul, 2023
在化学中,最邻近基于相似性搜索是一项常见任务,但其中一些常用方法仍然采用蛮力算法。本研究评估了低维化学嵌入和 k-d 树数据结构相结合的方法,能在标准化学相似性搜索基准下实现快速最近邻查询,并证明了这种方法在超过十亿种化学物质的搜索中,仅用一个 CPU 核心能在一秒钟内执行,比蛮力算法快五个数量级,并且在化学相似性基准中表现出竞争性能。
Feb, 2024
本文考虑利用 Wang 等人(2013)的算法对图进行主动搜索,通过在数据上的相似函数来最小化图上的能量函数以选择点,并且提出了一些关键修改,使其能够跨大规模数据集进行扩展,并实现了与现有半监督方法相竞争的实验结果。
Apr, 2017
本文介绍了一种名为 HQI 的系统,用于高吞吐量批处理混合查询,特别是在知识图谱中的向量相似度搜索。该系统使用一种基于负载的向量数据分区方案来量身定制向量索引布局,同时描述了一种多查询优化技术以减少向量相似度计算的开销。我们基于工业工作负载评估了 HQI 的方法,并证明与现有的混合查询处理方法相比,HQI 在查找相关 KG 查询方面的吞吐量提高了 31 倍。
Apr, 2023
本文提出一种新颖的神经网络方法 SimGNN,该方法通过可学习的嵌入函数和注意力机制实现了对图形编辑距离等图形相似性计算的高效计算和良好性能的综合优化,并在三种真实图数据集上取得了比现有基线算法更小的误差率和更大的时间降低。
Aug, 2018