小半径向量搜索

Mar, 2024

Vector search with small radiuses

Gergely Szilvasy, Pierre-Emmanuel Mazaré, Matthijs Douze

TL;DR研究了向量搜索中的召回率指标问题，提出基于范围搜索任务的 RSM 指标，以评估向量搜索的精确性，并证明了适应于 top-k 检索的索引方法不一定能最大化 RSM。

Abstract

In recent years, the dominant accuracy metric for vector search is the recall of a result list of fixed size (top-k retrieval), considering as ground truth the exact vector retrieval results. Although convenient

vector search recall end-to-end accuracy range search task rsm

发现论文，激发创造

混合向量关系搜索的高效数据访问路径

通过硬件优化和张量化及批处理提高了向量关系搜索的效率，考虑了向量数据管理和混合向量 - 关系搜索的不同路径。

Mar, 2024

连续空间端到端检索

通过培训简单的检索专用模型，并采用合适的模型架构，我们考虑了端到端的连续检索问题，并使用标准的近似最近邻搜索代替通常的离散倒排索引，仅依靠学习嵌入之间的距离。在两个相似问题检索任务上，我们在离散基线上实现了 8％和 26％（MAP）的提升，并讨论了检索系统评估的问题，并展示了如何修改现有的成对相似性数据集以实现此目的。

Nov, 2018

利用全文搜索引擎进行语义向量编码和相似性搜索

本文提出了一种利用全文检索引擎，在稠密语义表示中进行‘向量相似性搜索’的新方法，并展示了其在语义搜索上的实用性。

Jun, 2017

在十亿个向量中搜索：用源编码重新排序

本文提出了一种在高维向量的压缩域内重新排列邻居猜想的方法，通过短量化码优化估算距离，以避免从磁盘中读取完整向量，实验证明该方法准确高效且占用较少内存。

Feb, 2011

用于高维空间相似度搜索的记忆向量

研究一个索引架构，从统计信号处理和决策理论角度，存储和搜索高维向量数据库。该架构由多个内存单元组成，每个内存单元通过单个代表向量总结一部分数据库。和穷举搜索相比，我们的方法能够更快地找到相似的数据库向量，而不会显著降低搜索质量。

Dec, 2014

可扩展的学习非可分解目标

本研究提出了一种统一的框架，使用简单的构建块限制，允许对各种基于排名的目标进行高度可扩展的优化，并在多个实际检索问题上展示了我们方法的优势，同时在性能和精度方面显著改进了基线。

Aug, 2016

基于排名的词向量相似度度量

本文研究了基于词嵌入的语义相似度计算方法，提出了一种基于排名的度量方法，在相似度测量和异常值检测方面表现良好，表明基于排名的度量方法可以提高聚类质量。

May, 2018

走出常规路线：用 k-NN 搜索替代基于词项检索

通过使用 k-NN 检索算法和近似算法，考虑到微妙的词汇相关性，以取代基于词汇的搜索并提高检索效率。

Oct, 2016

基于动态连续索引的快速 K 最近邻搜索

提出一种新的无需数据空间分割的随机化算法来避免由于数据维度过高而导致的数据检索问题，并通过理论分析和实验结果来证明这种算法在数据近似性、速度和空间效率等方面优于传统的局部敏感哈希算法（LSH）

Dec, 2015

核机器距离度量学习

本文探讨将三种流行的马氏度量学习算法作为预处理程序，在支持向量机（SVM）- RBF 分类器上的作用。结果表明，这种算法效果并不理想。作者提出一种新的算法 —— 支持向量度量学习（SVML），它无缝地将 Mahalanobis 度量的学习与 RBF-SVM 参数的训练相结合。实验证明，SVML 在精度方面优于所有替代方法，并成为交叉验证选择模型的标准欧几里得度量的严肃替代方案。

Aug, 2012