走出常规路线:用 k-NN 搜索替代基于词项检索
研究了基于检索增强的语言模型中 $k$NN-LM 中检索文本的词汇和语义匹配对于性能的影响,并通过使用检索结果质量确定插值系数的新表述,成功地提高了英文语言建模数据集 Wikitext-103 和 PG-19 中的困惑度近 4%。
Oct, 2022
通过培训简单的检索专用模型,并采用合适的模型架构,我们考虑了端到端的连续检索问题,并使用标准的近似最近邻搜索代替通常的离散倒排索引,仅依靠学习嵌入之间的距离。在两个相似问题检索任务上,我们在离散基线上实现了 8%和 26%(MAP)的提升,并讨论了检索系统评估的问题,并展示了如何修改现有的成对相似性数据集以实现此目的。
Nov, 2018
本研究中,我们提出了一种新的方法来扩展近似最近邻搜索到任意匹配函数(例如深度神经网络),并使用可插拔的对抗性训练任务来保证搜索结果的准确性;通过在开源和工业数据集上的实验证明了我们方法的有效性,并在淘宝展示广告平台上进行了全面部署,带来了相当可观的广告收入增长。
Feb, 2022
通过使用大规模检索方法(尤其是高效的 k - 最近邻),我们提出了一种小型高效的文本到图像扩散模型,该模型不需要文本,并且可以在保持对象身份的同时执行基于文本驱动的局部语义操作。我们的方法在多个数据集上实现了最先进的结果,并且与使用仅图像而没有配对文本数据进行文本到图像生成模型训练的现有方法相比,在人类研究和自动指标方面都取得了最先进的结果。
Apr, 2022
近似 k 最近邻(ANN)方法常用于大规模高维数据集上的信息挖掘和机器学习,针对动态数据集和在线特征学习等应用,我们通过实证评估了 5 种流行的 ANN 方法,结果表明在动态数据集中,k-d 树方法不适用,并且在在线数据收集和在线特征学习方面,层次可导航小世界图方法和可扩展最近邻方法分别比基线方法更快速。
Apr, 2024
该研究论文讨论了最近邻(NN)技术在模式识别、文本分类、目标识别等领域的应用。文中介绍了结构无关和结构相关技术,如加权 kNN,基于模型的 kNN 等结构无关技术以及 k-d 树,球树,主轴树,最近特征线,可调 NN 等结构相关算法,并提出了结构无关方法可以克服内存限制,而结构相关技术可以减少计算复杂度。
Jul, 2010
使用 k 近邻(kNN)组件提高语言模型性能,进而结合 BERT 与传统信息检索(IR)和大型文本嵌入数据存储的 kNN 搜索提高开放域问答的召回率。实验结果证明,BERT-kNN 在题型填空问答方面比 BERT 表现更优,尤其在处理罕见事实和未在 BERT 训练集中涉及的事实方面表现突出。
May, 2020
本文综述了 13 个代表性的基于图的近似最近邻搜索算法,通过新的分类和细粒度的流程进行了比较分析和实验评估。该研究提供了优化算法的原则并设计了一种优化方法,可以优于现有的基于图的近似最近邻算法。同时还提供了关于有前途的研究方向和适合不同领域从业者使用的算法的经验建议。
Jan, 2021