Faiss 库
本文讨论了各种词嵌入和句子嵌入算法,选择 Bert 作为我们的算法,并评估了 FAISS 和 Elasticsearch 两种向量比较方法在句子嵌入问题中的表现。结果显示,当使用大型数据集进行集中式环境的处理时,FAISS 的性能优于 Elasticsearch。
Apr, 2022
LeanVec 是一个结合了线性降维和向量量化的框架,用于加速高维度向量的相似性搜索,并在维持准确度的同时提高性能。它提供了针对分布内和分布外查询的两个变体,能够产生与最新的深度学习替代方案相当的准确度,并在搜索吞吐量上提高了 3.7 倍,并比现有技术快 4.9 倍的索引构建时间。
Dec, 2023
研究一个索引架构,从统计信号处理和决策理论角度,存储和搜索高维向量数据库。该架构由多个内存单元组成,每个内存单元通过单个代表向量总结一部分数据库。和穷举搜索相比,我们的方法能够更快地找到相似的数据库向量,而不会显著降低搜索质量。
Dec, 2014
比较了 FAISS 和 FENSHSES 在汉明空间最近邻搜索中的表现,通过索引速度、搜索延迟和 RAM 消耗等方面进行综合评估。本比较旨在更好地理解主存和二级存储实现的最近邻搜索系统之间的权衡,这在文献中得到了很少讨论。
Jun, 2019
本论文综述了现有的近似最近邻搜索算法,并按照基于哈希、基于树、基于图和基于量化的方法对这些研究进行了分类。此外,论文还提出了向量数据库面临的挑战,并探讨了将向量数据库与大型语言模型结合的新可能性。
Oct, 2023
本文介绍一种学习图嵌入的简单、有效方法,通过密集向量表示来近似节点之间的距离,以反映用户定义的图距离度量,避免了直接在图结构上进行操作引起的低效性,证明该方法在语义相似性和词义消歧任务上的表现比其他图嵌入方法更优秀,同时在 WordNet 和两个知识库图上进行了评估。
Jun, 2019
介绍了一种基于 FPGA 的可扩展矢量搜索框架 FANNS,通过自动协同设计硬件和算法来生成相应的加速器,以在数据中心和 AI 超算中实现未来的 FPGA 集成。
Jun, 2023