走出常规路线：用 k-NN 搜索替代基于词项检索

Oct, 2016

走出常规路线：用 k-NN 搜索替代基于词项检索

Off the Beaten Path: Let's Replace Term-Based Retrieval with k-NN Search

Leonid Boytsov, David Novak, Yury Malkov, Eric Nyberg

TL;DR通过使用 k-NN 检索算法和近似算法，考虑到微妙的词汇相关性，以取代基于词汇的搜索并提高检索效率。

Abstract

retrieval pipelines commonly rely on a term-based search to obtain candidate records, which are subsequently re-ranked. Some candidates are missed by this approach, e.g., due to a vocabulary mismatch. We address this issue by replacing the term-based search with a generic →

retrieval pipelines k-nn retrieval algorithm term associations approximate algorithm efficiency

发现论文，激发创造

邻居非自选：关于 $k$NN-LM 中如何选择何时依赖检索

研究了基于检索增强的语言模型中 $k$NN-LM 中检索文本的词汇和语义匹配对于性能的影响，并通过使用检索结果质量确定插值系数的新表述，成功地提高了英文语言建模数据集 Wikitext-103 和 PG-19 中的困惑度近 4%。

Oct, 2022

连续空间端到端检索

通过培训简单的检索专用模型，并采用合适的模型架构，我们考虑了端到端的连续检索问题，并使用标准的近似最近邻搜索代替通常的离散倒排索引，仅依靠学习嵌入之间的距离。在两个相似问题检索任务上，我们在离散基线上实现了 8％和 26％（MAP）的提升，并讨论了检索系统评估的问题，并展示了如何修改现有的成对相似性数据集以实现此目的。

Nov, 2018

基于神经相似性度量的大规模推荐系统近似最近邻搜索

本研究中，我们提出了一种新的方法来扩展近似最近邻搜索到任意匹配函数（例如深度神经网络），并使用可插拔的对抗性训练任务来保证搜索结果的准确性；通过在开源和工业数据集上的实验证明了我们方法的有效性，并在淘宝展示广告平台上进行了全面部署，带来了相当可观的广告收入增长。

Feb, 2022

KNN-Diffusion: 基于大规模检索的图像生成

通过使用大规模检索方法（尤其是高效的 k - 最近邻），我们提出了一种小型高效的文本到图像扩散模型，该模型不需要文本，并且可以在保持对象身份的同时执行基于文本驱动的局部语义操作。我们的方法在多个数据集上实现了最先进的结果，并且与使用仅图像而没有配对文本数据进行文本到图像生成模型训练的现有方法相比，在人类研究和自动指标方面都取得了最先进的结果。

Apr, 2022

动态数据集上的近似最近邻搜索：一项调查

近似 k 最近邻（ANN）方法常用于大规模高维数据集上的信息挖掘和机器学习，针对动态数据集和在线特征学习等应用，我们通过实证评估了 5 种流行的 ANN 方法，结果表明在动态数据集中，k-d 树方法不适用，并且在在线数据收集和在线特征学习方面，层次可导航小世界图方法和可扩展最近邻方法分别比基线方法更快速。

Apr, 2024