基于 GPU 的十亿级相似度搜索

Feb, 2017

Billion-scale similarity search with GPUs

Jeff Johnson, Matthijs Douze, Hervé Jégou

TL;DR本文提出了一种优化 k - 选择算法解决高维数据相似度搜索问题的方法，实现了快速且准确的 k - 最近邻图的构建，并在多个方面超越目前的最新 GPU 技术。

Abstract

similarity search finds application in specialized database systems handling complex data such as images or videos, which are typically represented by high-dimensional features and require specific indexing structures. This paper tackles the problem of better utilizing GPUs for this ta

发现论文，激发创造

使用 GPU 进行快速 k 近邻搜索

该研究评估了使用 NVIDIA CUDA API 加速 K - 最近邻搜索在计算机视觉中的应用，最多可缩短搜索时间 120 倍。

Apr, 2008

在 GPU 上高效地进行大规模近似最近邻搜索

本研究提出基于 Product Quantization 的两层向量量化树的 ANN 搜索新方法，在 GPU 实现方面取得了比 CPU 更高的性能表现，适用于视频中循环关闭等对时间敏感的高维问题。

Feb, 2017

基于图形和紧凑回归码的快速索引

本文提出了一种基于图遍历和压缩表征的方法，该方法编码可索引向量使用量化和利用图结构改进相似度估计。该方法在保证较小比较集的高精度及显著内存压缩的同时，在 64-128 字节每向量的操作点上，优于现有技术在二十亿规模公共基准测试中的表现。

Apr, 2018

相似性搜索的快速谱排序

本研究介绍了一种显式嵌入方法，将流形搜索转化为欧氏距离搜索，并且利用近似傅里叶基础加速在线搜索，从而提高了特定对象的检索精度和效率。

Mar, 2017

MaxK-GNN：加速图神经网络训练的理论速度极限

本文提出了 MaxK-GNN，一个高性能的 GPU 训练系统，通过集成算法和系统创新来实现。在 MaxK-GNN 系统的广泛评估中，实验结果显示其接近 Amdahl 法则的理论极限，相对于 DGL 和 GNNAdvisor 的实现，在 Reddit 上实现了 3.22/4.24 倍的速度提升（相对于理论极限的 5.52/7.27 倍），并且达到了与 SOTA GNN 相当的准确性。

Dec, 2023

利用图形处理单元进行快速知识图谱补全

通过使用知识图谱嵌入向量，我们提出了一个高效的 GPU 支持的知识图谱完成框架来获取新的关系，并且我们通过将知识图铺完问题转化为 “可转化为度量空间” 的相似性连接问题，并使用度量空间特性导出公式来快速处理相似性连接问题的方法，来实验性地展示我们的框架能够高效地处理知识图谱完成问题。

Jul, 2023

利用低维分子嵌入进行快速化学相似性搜索

在化学中，最邻近基于相似性搜索是一项常见任务，但其中一些常用方法仍然采用蛮力算法。本研究评估了低维化学嵌入和 k-d 树数据结构相结合的方法，能在标准化学相似性搜索基准下实现快速最近邻查询，并证明了这种方法在超过十亿种化学物质的搜索中，仅用一个 CPU 核心能在一秒钟内执行，比蛮力算法快五个数量级，并且在化学相似性基准中表现出竞争性能。

Feb, 2024

使用线性相似函数扩展主动搜索

本文考虑利用 Wang 等人（2013）的算法对图进行主动搜索，通过在数据上的相似函数来最小化图上的能量函数以选择点，并且提出了一些关键修改，使其能够跨大规模数据集进行扩展，并实现了与现有半监督方法相竞争的实验结果。

Apr, 2017

知识图谱中基于高吞吐量的向量相似性搜索

本文介绍了一种名为 HQI 的系统，用于高吞吐量批处理混合查询，特别是在知识图谱中的向量相似度搜索。该系统使用一种基于负载的向量数据分区方案来量身定制向量索引布局，同时描述了一种多查询优化技术以减少向量相似度计算的开销。我们基于工业工作负载评估了 HQI 的方法，并证明与现有的混合查询处理方法相比，HQI 在查找相关 KG 查询方面的吞吐量提高了 31 倍。

Apr, 2023

SimGNN：一种快速图相似度计算的神经网络方法

本文提出一种新颖的神经网络方法 SimGNN，该方法通过可学习的嵌入函数和注意力机制实现了对图形编辑距离等图形相似性计算的高效计算和良好性能的综合优化，并在三种真实图数据集上取得了比现有基线算法更小的误差率和更大的时间降低。

Aug, 2018